Індивідуальне завдання
Завдання
Проведіть аналіз клієнтської бази компанії за неповним або зашумленим датасетом (наприклад, у 30% записів відсутня стать, а 10% — з явно помилковим віком). Оцініть вплив відновлення даних різними методами (медіана, kNN, моделі прогнозування) на результати класифікації.
Оцініть вплив різних стратегій імпутації (median, KNN, регресійна модель тощо) для age, gender, income.
Побудуйте класифікаційну модель (наприклад, логістичну регресію або Random Forest), яка прогнозує purchase_made.
Проведіть порівняння результатів метрик класифікації (accuracy, F1-score, ROC‑AUC) між різними методами відновлення даних.
Дані для аналізу кожен студент отримує окремо від викладача.
Етапи виконання
1. Завантаження даних: pandas.read_csv()
2. Відновлення пропусків:
- median для age і income;
- KNN Imputer для числових і категоріальних полів (scikit-learn);
- регресійна модель для прогнозу income, наприклад RandomForestRegressor.
3. Обробка категорій: заміна gender на найчастіше, або через KNN/імовірнісний спосіб.
4. Навчання моделі на декількох варіантах імпутації.
5. Порівняння результатів з графіками або таблицями.
Запитання
1. Які метрики класифікації слід обрати — і чому їх використовують окрім accuracy?
2. Як тип відсутності (MCAR, MAR, MNAR) може вплинути на вибір методу імпутації?
3. Який метод дав найстабільніші результати на ваших даних та чому?