Лабораторна робота 1. Початкове дослідження даних (6 балів)
Вимоги до звіту
Звіт про виконання роботи потрібно оформити в форматі python jupyter notebook (https://colab.research.google.com) . Посилання на звіт надається як відповідь на завдання
Практичне завдання
- Встановити Apache Spark в Google Colaboratory
- Прочитати дані ( https://www.kaggle.com/usaf/vietnam-war-bombing-operations або https://drive.google.com/a/epfl.ch/file/d/1L6pCQkldvdBoaEhRFzL0VnrggEFvqON4/view?usp=sharing )
- Показати структуру даних
- Показати перші рядки
- Підрахувати кількість рядків
- Підрахувати окремо кількість місій для кожної країни за допомогою map/reduce
- Скопіювати в pandas DataFrame дані про кількість місій для кожної країни
- Показати гістограму "кількість місій для кожної країни"
- Підрахувати кількість місій для кожної країни та дати за допомогою map/reduce
- Показати на графіку кількість місій для кожної країни в залежності від дати
- Показати перелік цілей
- Показати перелік країн для заданої цілі
- Показати на графіку кількість місій для кожної країни в залежностів від дати для заданої цілі
- Показати кількість місій для кожного типу літака за допомогою map/reduce
- Показати кількість місій для кожного типу літака в залежності від дати за допомогою map/reduce
Теоретичні запитання
1. Що таке RDD в Apache Spark?
2. Який тип об'єкта в Apache Spark містить реалізацію map-reduce?
3. Які операції можна виконувати на кроці map в рамках підходу map-reduce?
4. Які операції можна виконувати на кроці reduce в рамках підходу map-reduce?
2. Який тип об'єкта в Apache Spark містить реалізацію map-reduce?
3. Які операції можна виконувати на кроці map в рамках підходу map-reduce?
4. Які операції можна виконувати на кроці reduce в рамках підходу map-reduce?