Résumé de section
-
-
Викладач: доцент кафедри програмної інженерії, канд. техн. наук, доцент Лимаренко Юлія Олексіївна
Контактна інформація: e-mail - yuliia.lymarenko@gmail.com, Telegram - @LymarenkoYuliiaДисципліна є логічним продовженням курсів "Бази даних" та "Нереляційні бази даних" і фокусується на промислових методах роботи з масивами даних, які не можуть бути ефективно оброблені традиційними СУБД.
Курс розкриває фундаментальні підходи та інструменти для роботи з великими за обсягом даними (Big Data). Основна увага приділяється повному циклу інженерії даних:
-
Студенти опанують методи побудови Озер даних (Data Lakes) — централізованих сховищ для зберігання сирих даних будь-якого формату та масштабу.
-
Центральне місце займає фреймворк Apache Spark — стандарт індустрії для розподілених обчислень.
-
Буде вивчено архітектуру Сховищ даних (Data Warehouses), призначених для високопродуктивної аналітики, а також принципи масштабованого розгортання Big Data рішень.
Практичні Навички
Студенти отримають практичний досвід, створюючи та керуючи конвеєрами даних (Data Pipelines), які здатні обробляти терабайти інформації. Лабораторні роботи охоплюють:
-
Розробку ETL/ELT-процесів (видобуток, трансформація, завантаження) на основі Spark для пакетної та потокової обробки даних.
-
Оркестрацію та автоматизацію завдань з обробки.
-
Застосування аналітичних технологій для очищення, підготовки та узагальнення даних для фінальних звітів.
Курс розпочнеться з вивчення базових технологій у локальних або віртуалізованих середовищах, а потім поступово перейде до використання хмарних сервісів для демонстрації промислового масштабу та високої доступності.
-
-