Екзамен/Залік
Варіанти
1.Лебедєв Артем Сергійович
2. Павленко Валентин Сергійович
3. Ткалич Кирило Костянтинович
4. Фоменко Олександр Станіславович
5. Бірюкова Ксенія Олександрівна
6. Ведмеденко Сергій Віталійович
7. Логвиненко Кирило Сергійович
8. Овсієнко Юлій Юлійович
9. Работягов Ярослав Сергійович
10. Цапля Євгенія Євгеніївна
11. Бєлоусова Валерія Вячеславівна
12. Дзюман Максим Андрійович
13. Зиков Олександр Вікторович
14. Капінос Альона Олександрівна
15. Мацегора Арсеній Андрійович
16. Панасенко Віталій Євгенійович
17. Пацера Ігор Євгенійович
18.Пилипенко Артемій Валерійович
19. Романенко Ярослав Олександрович
20. Бублик Лев Юрійович
21. Левченкова Ганна Сергіївна
22. Лісєєнко Артем Андрійович
23. Токарєв Андрій Іванович
Завдання
-
https://archive.ics.uci.edu/ml/datasets/Chess+%28King-Rook+vs.+King-Pawn%29
-
https://archive.ics.uci.edu/ml/datasets/Japanese+Credit+Screening
-
https://archive.ics.uci.edu/ml/datasets/Glass+Identification
-
https://archive.ics.uci.edu/ml/datasets/Chemical+Composition+of+Ceramic+Samples
-
https://archive.ics.uci.edu/ml/datasets/Early+stage+diabetes+risk+prediction+dataset
-
https://archive.ics.uci.edu/dataset/275/bike+sharing+dataset
-
https://archive.ics.uci.edu/dataset/555/apartment+for+rent+classified
-
https://archive.ics.uci.edu/dataset/563/iranian+churn+dataset
-
https://archive.ics.uci.edu/dataset/882/large-scale+wave+energy+farm
-
https://archive.ics.uci.edu/dataset/608/traffic+flow+forecasting
-
https://archive.ics.uci.edu/dataset/851/steel+industry+energy+consumption
-
https://archive.ics.uci.edu/dataset/316/condition+based+maintenance+of+naval+propulsion+plants
Для обраного згідно варіанта набору даних виконати такі завдання.
1. Виконати описовий аналіз даних. Побудувати діаграми розподілу суттєвих ознак. Побудувати діаграму розподілу цільової змінної. Побудувати точкові 2D та 3D діаграми взаємного розподілу цільової ознаки та деяких незалежних ознак. Будь-які діаграми, що дають додаткове розуміння даних. Вивести таблицю статистик ознак. Словами описати сутність задачі. (3 балів)
2. Виконати аналіз збалансованості або аналіз діапазону розподілу значень ознак. Визначити необхідність застосувати методи балансування класів або нормалізації даних. (2 балів)
3. Виконати попередню обробку даних. Може включати етапи нормалізації, кодування категорійних значень. (5 балів)
4. Виконати розподіл на набори даних для тренування та тестування. Застосувати кросвалідацію. (2 балів)
5. Побудувати модель класифікації або регресор (будь-які методи з sklearn, краще - декілька). (3 балів)
6. Виконати оцінку точності побудованої моделі на тестових даних. Застосувати confusion matrix, F1 score, MAPE, R^2. Написати Висновок (5 балів)
Завдання виконуються у Colab або Kaggle notebook. Всі етапи виконання слід коментувати блоком тексту. Посилання на остаточний варіант відповіді слід завантажити у Moodle.