Лабораторна робота 3. Очищення даних (6 балів)
Вимоги до звіту
Звіт про виконання роботи потрібно оформити
в форматі python jupyter notebook (https://colab.research.google.com) .
Посилання на звіт надається як відповідь на завдання
Практичне завдання
- Прочитати засобами python pandas Dataframe дані про спортивні змагання (дані додаються до завдання або https://github.com/ryurko/nflscrapR-data)
- Переглянути вибірку з даних
- Підрахувати кількість пропущених значень у кожній колонці
- Підрахувати відносну кількість пропущених значень у всій таблиці
- Знайти дані, які не були внесені та дані, яких не існує
- Видалити з даних всі рядки з пропущеними даними
- Видалити з даних всі колонки з пропущеними даними, показати імена видалених колонок
- Заповнити пропущені дані правдоподібними значеннями, використати різні методи
- Переглянути типи даних та перетворити тестові значення на дату+час, додати колонки з роком, місяцем, днем тижня, днем місяця
- За допомогою метода DataFrame.quantile знайти аномальні значення в колонках із числовими даними, показати відповідні рядки.
- Виконати масштабування вибраної колонки до інтервалу (-1, 1)
- Виконати нормалізацію даних за допомогою scipy.stats.boxcox (https://en.wikipedia.org/wiki/Power_transform )
- Показати кодову таблицю для вибраної колонки з тектовими даними
Теоретичні запитання
Додаткові відомості
- 19 February 2022, 19:13