
Ця вибіркова дисципліна є необхідним продовженням курсів "Бази даних" та "Нереляційні бази даних" і фокусується на промислових методах роботи з масивами даних, які не можуть бути ефективно оброблені традиційними СУБД.
Курс розкриває фундаментальні підходи та інструменти для роботи з Великими Даними (Big Data). Основна увага приділяється повному циклу інженерії даних (Data Engineering):
-
Студенти опанують методи побудови Озер Даних (Data Lakes) — централізованих сховищ для зберігання сирих даних будь-якого формату та масштабу.
-
Центральне місце займає фреймворк Apache Spark — стандарт індустрії для розподілених обчислень.
-
Буде вивчено архітектуру Сховищ Даних (Data Warehouses), призначених для високопродуктивної аналітики, а також принципи масштабованого розгортання Big Data рішень.
Практичні Навички
Студенти отримають практичний досвід, створюючи та керуючи конвеєрами даних (Data Pipelines), які здатні обробляти терабайти інформації. Лабораторні роботи охоплюють:
-
Розробку ETL/ELT-процесів (видобуток, трансформація, завантаження) на основі Spark для пакетної та потокової обробки даних.
-
Оркестрацію та автоматизацію завдань з обробки.
-
Застосування аналітичних технологій для очищення, підготовки та узагальнення даних для фінальних звітів.
Курс розпочнеться з вивчення базових технологій у локальних або віртуалізованих середовищах, а потім поступово перейде до використання хмарних сервісів для демонстрації промислового масштабу та високої доступності.
- Profesor: Лимаренко Юлія Олексіївна