Лабораторна робота №2. Задачі виявлення шахрайства
1. Виконати пояснювальний аналіз даних набору https://www.kaggle.com/datasets/mlg-ulb/creditcardfraud
2. Підготувати дані для моделі прогнозування
3. Побудувати модель прогнозування класифікатор (pycaret). Використати крос-валідацію та метрику F1 для оцінки точності
4. Реалізувати модель пошуку аномалій на основі кластеризації (бібліотека PyOD)
5. Реалізувати модель прогнозування на основі кластеризації (pycaret)
6. Порівняти ефективність побудованих моделей та отримані результати
Рекомендації:
Використовувати TargetEncoder (https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.TargetEncoder.html) для кодування категорійних ознак.
Використовувати mutual_info_classif для оцінки важливості ознак (https://scikit-learn.org/stable/modules/generated/sklearn.feature_selection.mutual_info_classif.html)
Використовувати метод SelectKBest для вибору ознак перед моделюванням (https://scikit-learn.org/stable/modules/generated/sklearn.feature_selection.SelectKBest.html)
Оцінювати середнє значення (mean) та стандартне відхилення (std) метрик якості після крос-валідації.
Застосовувати sklearn pipeline (https://scikit-learn.org/stable/modules/generated/sklearn.pipeline.Pipeline.html) для створення потоків обробки даних.