Екзамен/Залік
- Андрєєв Владислав Олегович
- Вишневецький Володимир Максимович
- Волино Руслан Сергійович
- Городничий Максим Едуардович
- Грачов Богдан Костянтинович
- Кологривов Дмитро Олександрович
- Мірошник Олег Олегович
- Пахомов Владислав Ігорович
- Савенко Богдан Сергійович
- Атаян Армен Сергоєвич
- Бучинський Ярослав Михайлович
- Зубков Ярослав Сергійович
- Ващилін Никита Олександрович
- Волович Артем Романович
- Гетало Данило Сергійович
- Демченко Артем Юрійович
- Коваль Роман Євгенович
- Матвійчук Віталій Вікторович
- Постарнак Артем Сергійович
- Романова Влада Дмитрівна
- Сидоренко Дмитро Павлович
- Ткачук Роман Романович
- Шелельо Ілля Владиславович
- Вітлянчук Кирил Володимирович
- Крамарчук Катерина Романівна
- Хуповка Ярослава Андріївна
- Шевчук Олексій Леонтійович
- Душин Богдан Олександрович
- Михайлов Олег Олександрович
Завдання
https://archive.ics.uci.edu/ml/datasets/Chess+%28King-Rook+vs.+King-Pawn%29
https://archive.ics.uci.edu/ml/datasets/Japanese+Credit+Screening
https://archive.ics.uci.edu/ml/datasets/Glass+Identification
https://archive.ics.uci.edu/ml/datasets/Chemical+Composition+of+Ceramic+Samples
https://archive.ics.uci.edu/ml/datasets/Early+stage+diabetes+risk+prediction+dataset
https://archive.ics.uci.edu/dataset/275/bike+sharing+dataset
https://archive.ics.uci.edu/dataset/162/forest+fires
https://archive.ics.uci.edu/dataset/242/energy+efficiency
https://archive.ics.uci.edu/dataset/555/apartment+for+rent+classified
https://archive.ics.uci.edu/dataset/563/iranian+churn+dataset
https://archive.ics.uci.edu/dataset/882/large-scale+wave+energy+farm
https://archive.ics.uci.edu/dataset/368/facebook+metrics
https://archive.ics.uci.edu/dataset/608/traffic+flow+forecasting
https://archive.ics.uci.edu/dataset/851/steel+industry+energy+consumption
https://archive.ics.uci.edu/dataset/316/condition+based+maintenance+of+naval+propulsion+plants
https://archive.ics.uci.edu/dataset/243/yacht+hydrodynamics
https://archive.ics.uci.edu/dataset/846/accelerometer
Для обраного згідно варіанта набору даних виконати такі завдання.
1. Виконати описовий аналіз даних. Побудувати діаграми розподілу суттєвих ознак. Побудувати діаграму розподілу цільової змінної. Побудувати точкові 2D та 3D діаграми взаємного розподілу цільової ознаки та деяких незалежних ознак. Будь-які діаграми, що дають додаткове розуміння даних. Вивести таблицю статистик ознак. Словами описати сутність задачі. (10 балів)
2. Виконати аналіз збалансованості або аналіз діапазону розподілу значень ознак. Визначити необхідність застосувати методи балансування класів або нормалізації даних. (5 балів)
3. Виконати попередню обробку даних. Може включати етапи нормалізації, кодування категорійних значень. (5 балів)
4. Виконати розподіл на набори даних для тренування та тестування. Застосувати кросвалідацію. (5 балів)
5. Побудувати модель класифікації або регресор (будь-які методи з sklearn, краще - декілька). (5 балів)
6. Виконати оцінку точності побудованої моделі на тестових даних. Застосувати confusion matrix, F1 score, MAPE, R^2. (5 балів)
7. Налаштувати параметри моделі та отримання більшої точності моделі. Провести декілька обчислювальних експериментів. (5 балів)
Завдання виконуються у Colab або Kaggle notebook. Всі етапи виконання слід коментувати блоком тексту. Посилання на остаточний варіант відповіді слід завантажити у Moodle.