Лабораторна робота 3. Очищення даних (6 балів)

Вимоги до звіту

Звіт про виконання роботи потрібно оформити в форматі python jupyter notebook (https://colab.research.google.com) . Посилання на звіт надається як відповідь на завдання

Практичне завдання

  1. Прочитати засобами python pandas Dataframe дані про спортивні змагання (дані додаються до завдання або https://github.com/ryurko/nflscrapR-data)
  2. Переглянути вибірку з даних
  3. Підрахувати кількість пропущених значень у кожній колонці
  4. Підрахувати відносну кількість пропущених значень у всій таблиці
  5. Знайти дані, які не були внесені та дані, яких не існує
  6. Видалити з даних всі рядки з пропущеними даними
  7. Видалити з даних всі колонки з пропущеними даними, показати імена видалених колонок
  8. Заповнити пропущені дані правдоподібними значеннями, використати різні методи
  9. Переглянути типи даних та перетворити тестові значення на дату+час, додати колонки з роком, місяцем, днем тижня, днем місяця
  10. За допомогою метода DataFrame.quantile знайти аномальні значення в колонках із числовими даними, показати відповідні рядки.
  11. Виконати масштабування вибраної колонки до інтервалу (-1, 1)
  12. Виконати нормалізацію даних за допомогою scipy.stats.boxcox (https://en.wikipedia.org/wiki/Power_transform )
  13. Показати кодову таблицю для вибраної колонки з тектовими даними

Теоретичні запитання

  1. Які методи надає pandas.DataFrame для виявлення пропусків у даних?
  2. Які методи надає pandas.DataFrame для заповнення пропусків у даних?
  3. Які методи надає pandas.DataFrame для виявлення аномалій у даних?
  4. Як визначити кодову таблицю, використану для збереження тексту?

Додаткові відомості

  1. Приклади
  2. Приклад 2