Transformer як базова архітектура сучасних LLM: self-attention, позиційні кодування, обчислювальні компроміси. Розвиток від pretraining до instruction-tuning. Малі мовні моделі (SLM) та сценарії їх використання.
Hu, E. J., Shen, Y., Wallis, P., Allen-Zhu, Z., Li, Y., Wang, S., Wang, L., & Chen, W. (2022). LoRA: Low-Rank Adaptation of Large Language Models. International Conference on Learning Representations (ICLR). (https://openreview.net/forum?id=nZeVKeeFYf9)
Код (офіційний репозиторій): microsoft/LoRA (https://github.com/microsoft/LoRA)
Шаблон розв'язку https://colab.research.google.com/drive/1posZxSoLlrPi-RkdweDc_Vx8_BMW54p1?usp=sharing
Завдання для самостійної роботи, провести обчислювальні експерименти на новому наборі даних.
https://www.kaggle.com/datasets/abhinavnayak/catsvdogs-transformed