Лабораторна робота №1. Кредитний скорінг
1. Виконати пояснювальний аналіз даних набору https://www.kaggle.com/datasets/rikdifos/credit-card-approval-prediction
2. Підготувати дані для моделі прогнозування (нормалізація, пошук аномалій, балансування). Звести задачу до бінарної класифікації
3. Побудувати модель прогнозування
4. Використати крос-валідацію та метрику F1 для оцінки точності
4. За допомогою моделі з прийнятною точністю визначити важливість ознак в наборі даних
Приклад побудови нейромережі на наборі даних Iris
https://www.kaggle.com/code/avk256/neural-network-approach-to-iris-dataset
Рекомендації:
Використовувати TargetEncoder (https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.TargetEncoder.html) для кодування категорійних ознак.
Використовувати mutual_info_classif для оцінки важливості ознак (https://scikit-learn.org/stable/modules/generated/sklearn.feature_selection.mutual_info_classif.html)
Використовувати метод SelectKBest для вибору ознак перед моделюванням (https://scikit-learn.org/stable/modules/generated/sklearn.feature_selection.SelectKBest.html)
Оцінювати середнє значення (mean) та стандартне відхилення (std) метрик якості після крос-валідації.
Застосовувати sklearn pipeline (https://scikit-learn.org/stable/modules/generated/sklearn.pipeline.Pipeline.html) для створення потоків обробки даних.
Виконати інженерію ознак.
Приклад: https://colab.research.google.com/drive/1xHweO54DwmqRdb4JLVvVxJO7RZybF5fB?usp=sharing