Екзамен

Варіанти 

  1. Деменський Олексій Дмитрович

  2. Костюк Ілля Владиславович

  3. Мальцев Максим Максимович

  4. Пахота Данило Ігорович

  5. Туманов Валерій Андрійович

  6. Луців Данило Йосипович

  7. Бейко Денис Юрійович

  8. Воробець Віталій Сергійович

Завдання Екзамен

  1. https://archive.ics.uci.edu/ml/datasets/Abalone

  2. https://archive.ics.uci.edu/ml/datasets/Adult

  3. https://archive.ics.uci.edu/ml/datasets/Balance+Scale

  4. https://archive.ics.uci.edu/ml/datasets/Car+Evaluation

  5. https://archive.ics.uci.edu/ml/datasets/Chess+%28King-Rook+vs.+King-Pawn%29

  6. https://archive.ics.uci.edu/ml/datasets/Credit+Approval

  7. https://archive.ics.uci.edu/ml/datasets/Japanese+Credit+Screening

  8. https://archive.ics.uci.edu/ml/datasets/Cylinder+Bands

  9. https://archive.ics.uci.edu/ml/datasets/Glass+Identification

  10. https://archive.ics.uci.edu/ml/datasets/Horse+Colic

  11. https://archive.ics.uci.edu/ml/datasets/Ionosphere

  12. https://archive.ics.uci.edu/ml/datasets/Wine

  13. https://archive.ics.uci.edu/ml/datasets/HCV+data

  14. https://archive.ics.uci.edu/ml/datasets/Chemical+Composition+of+Ceramic+Samples

  15. https://archive.ics.uci.edu/ml/datasets/Dry+Bean+Dataset

  16. https://archive.ics.uci.edu/ml/datasets/Early+stage+diabetes+risk+prediction+dataset 

 

Для обраного згідно варіанта набору даних виконати такі завдання.

 

1. Виконати описовий аналіз даних. Побудувати діаграми розподілу суттєвих ознак. Побудувати діаграму розподілу цільової змінної. Побудувати точкові 2D та 3D діаграми взаємного розподілу цільової ознаки та деяких незалежних ознак. Будь-які діаграми, що дають додаткове розуміння даних. Вивести таблицю статистик ознак.  Словами описати сутність задачі. (10 балів)

2. Виконати аналіз збалансованості. При необхідності застосувати методи балансування класів. (5 балів)

3. Виконати попередню обробку даних. Може включати етапи нормалізації, кодування категорійних значень. (5 балів)

4. Виконати розподіл на набори даних для тренування та тестування. Застосувати кросвалідацію. (5 балів) 

5. Побудувати модель класифікації (будь-який класифікатор з sklearn). (5 балів)

6. Виконати оцінку точності побудованої моделі на тестових даних. Застосувати confusion matrix, F1 score. (5 балів)

7. Налаштувати параметри моделі та отримати точність класифікації F1 score >= 70% (5 балів)

 

Завдання виконуються у Colab або Kaggle notebook. Всі етапи виконання слід коментувати блоком тексту. Посилання на остаточний варіант відповіді слід завантажити у Moodle.