Перейти до головного вмісту

Блоки

Пропустити Навігація

Навігація

  • Інформаційна панель

    • Домашня сторінка

    • Сторінки сайту

      • Мої курси

      • Мітки

      • ФайлІнструкція для здобувачів освіти до вибору дисципл...

      • URL (веб-посилання)Вибір дисциплін на 2026-2027 навчальний рік

      • URL (веб-посилання)Вибір дисциплін на 2025-2026 навчальний рік

      • URL (веб-посилання)Вибір дисциплін на 2024-2025 навчальний рік

      • ФорумНовини сайту

      • URL (веб-посилання)Інструкція - основи роботи з системою Moodle

      • URL (веб-посилання)ЦИВІЛЬНИЙ ЗАХИСТ

      • ТекаНормативна база СЕЗН

      • URL (веб-посилання)Відновлення пароля

      • ФайлПам’ятка для користувача системи Moodle

      • ФайлСистема оцінки курсу

      • Зворотний зв’язокОцінка якості курсу

    • Мої курси

    • Курси

      • Факультети, кафедри

        • Біологічний факультет

        • Економічний факультет

        • Журналістики факультет

        • Інженерний навчально-науковий інститут ім. Ю.М. По...

        • Іноземної філології факультет

        • Математичний факультет

          • Кафедра загальної математики

          • Кафедра загальної та прикладної фізики

          • Кафедра комп'ютерних наук

            • archive

            • Методи контейнеризації та масштабування комп'ютерн...

            • Архітектура комп'ютерних систем

            • Інформаційна безпека держави

            • Нормативно-правове забезпечення інформаційної безпеки

            • Діджитал-інструменти в комерційній діяльності

            • Архітектура обчислювальних систем (ОПП Комп’ютерне...

            • Сучасні методи машинного навчання

            • Безпека інформаційно-комунікаційних систем

            • Сучасні інформаційні технології перекладу

            • Освітні вимірювання

            • Теорія інформації та кодування даних

            • Python для аналізу даних

              • Загальне

              • Теоретичні матеріали

              • Лабораторні роботи

              • Контроль знань

                • Тест01 Основні операції з даними (3)

                • Тест02 Перевірка статистичних гіпотез (3)

                • Тест03. Очищення даних (3)

                • Тест04. Візуалізація (3)

                • Тест05. Робота з часовими послідовностями (3)

                • Тест06. NLTK (3)

                • Тест07 Scraping (3)

                • Тест08 Робота з графами (3)

                • ТестПідсумковий контроль (20)

                • ЗавданняІндивідуальне завдання

              • Рекомендована література

          • Кафедра прикладної математики і механіки

          • Кафедра програмної інженерії

          • Кафедра фундаментальної та прикладної математики

          • Практична підготовка математичного факультету

          • Інформація, Статистика Математичного факультету

        • Менеджменту факультет

        • Соціальної педагогіки та психології факультет

        • Соцiологiї та управлiння факультет

        • Факультет історії та міжнародних відносин

        • Факультет фізичного виховання, здоров'я та туризму

        • Філологічний факультет

        • Юридичний факультет

      • Аспірантура

      • Науково-технічна позашкільна освіта

      • Відділ доуніверситетської підготовки, профорієнтац...

      • Адміністративний розділ

      • Центр післядипломної освіти та професійних кваліфі...

      • Школа педагогічної майстерності

  • Вхід

Python для аналізу даних

Вибір дисциплін Згорнути Розгорнути
Вибір дисциплін Згорнути Розгорнути
Обрати дисципліни Статистика вибору дисциплін ВМУ
  1. Курси
  2. Факультети, кафедри
  3. Математичний факультет
  4. Кафедра комп'ютерних наук
  5. Python для аналізу даних
  6. Контроль знань
  7. Індивідуальне завдання

Індивідуальне завдання

Умови завершення

Завдання

Проведіть аналіз клієнтської бази компанії за неповним або зашумленим датасетом (наприклад, у 30% записів відсутня стать, а 10% — з явно помилковим віком). Оцініть вплив відновлення даних різними методами (медіана, kNN, моделі прогнозування) на результати класифікації.

Оцініть вплив різних стратегій імпутації (median, KNN, регресійна модель тощо) для age, gender, income.

Побудуйте класифікаційну модель (наприклад, логістичну регресію або Random Forest), яка прогнозує purchase_made.

Проведіть порівняння результатів метрик класифікації (accuracy, F1-score, ROC‑AUC) між різними методами відновлення даних.

Дані для аналізу кожен студент отримує окремо від викладача.

Етапи виконання

1. Завантаження даних: pandas.read_csv()
2. Відновлення пропусків:
    - median для age і income;
    - KNN Imputer для числових і категоріальних полів (scikit-learn);
    - регресійна модель для прогнозу income, наприклад RandomForestRegressor.

3. Обробка категорій: заміна gender на найчастіше, або через KNN/імовірнісний спосіб.
4. Навчання моделі на декількох варіантах імпутації.
5. Порівняння результатів з графіками або таблицями.


Запитання

1. Які метрики класифікації слід обрати — і чому їх використовують окрім accuracy?
2. Як тип відсутності (MCAR, MAR, MNAR) може вплинути на вибір методу імпутації?
3. Який метод дав найстабільніші результати на ваших даних та чому?

Попередня секція
Підсумковий контроль (20)
Підсумок збереження даних
Завантажте мобільний додаток