Información del curso | Технології Big Data

Технології Big Data

Ця вибіркова дисципліна є необхідним продовженням курсів "Бази даних" та "Нереляційні бази даних" і фокусується на промислових методах роботи з масивами даних, які не можуть бути ефективно оброблені традиційними СУБД.

Курс розкриває фундаментальні підходи та інструменти для роботи з Великими Даними (Big Data). Основна увага приділяється повному циклу інженерії даних (Data Engineering):

Студенти опанують методи побудови Озер Даних (Data Lakes) — централізованих сховищ для зберігання сирих даних будь-якого формату та масштабу.
Центральне місце займає фреймворк Apache Spark — стандарт індустрії для розподілених обчислень.
Буде вивчено архітектуру Сховищ Даних (Data Warehouses), призначених для високопродуктивної аналітики, а також принципи масштабованого розгортання Big Data рішень.

Практичні Навички

Студенти отримають практичний досвід, створюючи та керуючи конвеєрами даних (Data Pipelines), які здатні обробляти терабайти інформації. Лабораторні роботи охоплюють:

Розробку ETL/ELT-процесів (видобуток, трансформація, завантаження) на основі Spark для пакетної та потокової обробки даних.
Оркестрацію та автоматизацію завдань з обробки.
Застосування аналітичних технологій для очищення, підготовки та узагальнення даних для фінальних звітів.

Курс розпочнеться з вивчення базових технологій у локальних або віртуалізованих середовищах, а потім поступово перейде до використання хмарних сервісів для демонстрації промислового масштабу та високої доступності.

Profesor: Лимаренко Юлія Олексіївна

Кредити: 3

Семестр: 6