Vai al contenuto principale

Blocchi

Salta Navigazione

Navigazione

  • Dashboard

    • Home del sito

    • Pagine del sito

      • I miei corsi

      • Tag

      • FileІнструкція для здобувачів освіти до вибору дисципл...

      • URLВибір дисциплін на 2025-2026 навчальний рік

      • URLВибір дисциплін на 2024-2025 навчальний рік

      • ForumНовини сайту

      • URLІнструкція - основи роботи з системою Moodle

      • URLЦИВІЛЬНИЙ ЗАХИСТ

      • CartellaНормативна база СЕЗН

      • URLВідновлення пароля

      • FileПам’ятка для користувача системи Moodle

      • FileСистема оцінки курсу

      • FeedbackОцінка якості курсу

    • I miei corsi

    • Corsi

      • Факультети, кафедри

        • Біологічний факультет

        • Економічний факультет

        • Журналістики факультет

        • Інженерний навчально-науковий інститут ім. Ю.М. По...

        • Іноземної філології факультет

        • Математичний факультет

          • Кафедра загальної математики

          • Кафедра загальної та прикладної фізики

          • Кафедра комп'ютерних наук

            • archive

            • Сучасні інформаційні технології перекладу

            • Освітні вимірювання

            • Теорія інформації та кодування даних

            • Сучасні інформаційні системи і технології

            • Науково-дослідницька практика (ОНП)_4 семестр

            • Виробнича практика (ОНП 2024) 2 семестр

            • Курсова робота з дисципліни «Бази даних та інформа...

            • Сучасні мови програмування

            • Комп`ютерні мережі

            • Підготовка кваліфікаційної роботи магістра (ОНП)

            • Методи та технології розроблення цифрових двійників

            • Python для аналізу даних

              • Introduzione

              • Теоретичні матеріали

              • Лабораторні роботи

              • Контроль знань

                • Quiz01 Основні операції з даними (3)

                • Quiz02 Перевірка статистичних гіпотез (3)

                • Quiz03. Очищення даних (3)

                • Quiz04. Візуалізація (3)

                • Quiz05. Робота з часовими послідовностями (3)

                • Quiz06. NLTK (3)

                • Quiz07 Scraping (3)

                • Quiz08 Робота з графами (3)

                • QuizПідсумковий контроль (20)

                • CompitoІндивідуальне завдання

              • Рекомендована література

          • Кафедра прикладної математики і механіки

          • Кафедра програмної інженерії

          • Кафедра фундаментальної та прикладної математики

          • Практична підготовка математичного факультету

          • Інформація, Статистика Математичного факультету

        • Менеджменту факультет

        • Соціальної педагогіки та психології факультет

        • Соцiологiї та управлiння факультет

        • Факультет історії та міжнародних відносин

        • Факультет фізичного виховання, здоров'я та туризму

        • Філологічний факультет

        • Юридичний факультет

      • Аспірантура

      • Науково-технічна позашкільна освіта

      • Підготовчі курси до ЗНО

      • Адміністративний розділ

      • Центр післядипломної освіти та професійних кваліфі...

      • Школа педагогічної майстерності

  • Chiudi
    Attiva/disattiva input di ricerca
  • Italiano ‎(it)‎
    • Русский ‎(ru)‎
    • Українська ‎(uk)‎
    • Deutsch ‎(de_old)‎
    • English ‎(de)‎
    • English ‎(en)‎
    • Español - Internacional ‎(es)‎
    • Français ‎(fr)‎
    • Italiano ‎(it)‎
    • Polski ‎(pl)‎
  • Login

Python для аналізу даних

Chiudi
Attiva/disattiva input di ricerca
Вибір дисциплін Minimizza Espandi
Вибір дисциплін Minimizza Espandi
Обрати дисципліни Статистика вибору дисциплін ВМУ
  1. Home
  2. Corsi
  3. Факультети, кафедри
  4. Математичний факультет
  5. Кафедра комп'ютерних наук
  6. Python для аналізу даних
  7. Контроль знань
  8. Індивідуальне завдання

Індивідуальне завдання

Aggregazione dei criteri

Завдання

Проведіть аналіз клієнтської бази компанії за неповним або зашумленим датасетом (наприклад, у 30% записів відсутня стать, а 10% — з явно помилковим віком). Оцініть вплив відновлення даних різними методами (медіана, kNN, моделі прогнозування) на результати класифікації.

Оцініть вплив різних стратегій імпутації (median, KNN, регресійна модель тощо) для age, gender, income.

Побудуйте класифікаційну модель (наприклад, логістичну регресію або Random Forest), яка прогнозує purchase_made.

Проведіть порівняння результатів метрик класифікації (accuracy, F1-score, ROC‑AUC) між різними методами відновлення даних.

Дані для аналізу кожен студент отримує окремо від викладача.

Етапи виконання

1. Завантаження даних: pandas.read_csv()
2. Відновлення пропусків:
    - median для age і income;
    - KNN Imputer для числових і категоріальних полів (scikit-learn);
    - регресійна модель для прогнозу income, наприклад RandomForestRegressor.

3. Обробка категорій: заміна gender на найчастіше, або через KNN/імовірнісний спосіб.
4. Навчання моделі на декількох варіантах імпутації.
5. Порівняння результатів з графіками або таблицями.


Запитання

1. Які метрики класифікації слід обрати — і чому їх використовують окрім accuracy?
2. Як тип відсутності (MCAR, MAR, MNAR) може вплинути на вибір методу імпутації?
3. Який метод дав найстабільніші результати на ваших даних та чому?

Attività precedente
Підсумковий контроль (20)
Riepilogo della conservazione dei dati
Ottieni l'app mobile