Ця вибіркова дисципліна є необхідним продовженням курсів "Бази даних" та "Нереляційні бази даних" і фокусується на промислових методах роботи з масивами даних, які не можуть бути ефективно оброблені традиційними СУБД.

Курс розкриває фундаментальні підходи та інструменти для роботи з Великими Даними (Big Data). Основна увага приділяється повному циклу інженерії даних (Data Engineering):

  • Студенти опанують методи побудови Озер Даних (Data Lakes) — централізованих сховищ для зберігання сирих даних будь-якого формату та масштабу.

  • Центральне місце займає фреймворк Apache Spark — стандарт індустрії для розподілених обчислень.

  • Буде вивчено архітектуру Сховищ Даних (Data Warehouses), призначених для високопродуктивної аналітики, а також принципи масштабованого розгортання Big Data рішень.

Практичні Навички

Студенти отримають практичний досвід, створюючи та керуючи конвеєрами даних (Data Pipelines), які здатні обробляти терабайти інформації. Лабораторні роботи охоплюють:

  • Розробку ETL/ELT-процесів (видобуток, трансформація, завантаження) на основі Spark для пакетної та потокової обробки даних.

  • Оркестрацію та автоматизацію завдань з обробки.

  • Застосування аналітичних технологій для очищення, підготовки та узагальнення даних для фінальних звітів.

Курс розпочнеться з вивчення базових технологій у локальних або віртуалізованих середовищах, а потім поступово перейде до використання хмарних сервісів для демонстрації промислового масштабу та високої доступності.

Кредити: 3
Семестр: 6