DL Course HW13

Финальная модель

PyTorch · Transformer · GQA · RoPE · Byte-level BPE · Russian LM


Кратко

В этом репозитории сохранена итоговая модель

Финальной выбрана конфигурация small + GQA + RoPE, потому что она показала лучшее качество среди всех проведённых экспериментов по двум основным метрикам:

Метрика Значение
Validation loss 2.4695
Perplexity 11.82

Финальная модель

Основные компоненты:

Компонент Использованный вариант
Архитектура Decoder-only Transformer
Attention Grouped-Query Attention
Позиционные эмбеддинги Rotary Positional Embeddings
Нормализация RMSNorm
Feed-forward блок SwiGLU
Токенизатор Byte-level BPE

Сравнение экспериментов

Эксперимент Validation loss Perplexity
1 small + GQA baseline 2.5650 13.00
2 small + GQA + RoPE 2.4695 11.82
3 mini + MLA + RoPE 2.7306 15.34
4 small + MLA + RoPE 2.4905 12.07

Лучший результат получила модель small + GQA + RoPE.


Примеры генерации

Параметры генерации:

Параметр Значение
max_new_tokens 200
temperature 0.8
top_k 30
do_sample true
seed 42

Пример 1

Prompt

Штирлиц пришел домой

Generated text

Штирлиц пришел домой - весь вечер подумал, что у неё украли.

Пример 2

Prompt

Вовочка на уроке

Generated text

Вовочка на уроке русского языка учится на букву ``К`` и
 белый, и с чистой.
 Девочка:
 - Папа, пап, сегодня вечером папа пришел в школу,
 да! И так! Уже в школе!
 Мать:
 - А я, мама, не понял...

Пример 3

Prompt

Заходит в бар

Generated text

Заходит в бар в ларьку и видит, что держится на площади стекла. А доктор ему и сказал:- Доктор, у меня болит голова и рот пить не налил.Врач подумал и говорит:- Или у меня хлещет?И, встала с кровати:- Нет, просто у меня на характере нет...

Пример 4

Prompt

Однажды студент

Generated text

Однажды студент пришел к врачу и рассказывает ему: 
— Доктор, помогите, я выйду на него замуж! 
— А что вы делаете?! 
— Ну вот, папа, папаша, иду по парку и говорю: «Знаю
— А вы сегодня опять плохо приготовили» — подумал Штирлиц. И вот, значит, в темном классе
— Ну, это не хуйня, и он меня тоже.

Файлы репозитория

Файл Назначение
model.safetensors веса финальной модели
config.json конфигурация модели
vocabulary.json словарь токенизатора
merges.json merge-файл токенизатора
metrics.json метрики всех экспериментов
eval_results.json финальные eval-метрики
generation_samples.json примеры генерации в JSON
generation_samples.md примеры генерации в Markdown

Итог

Финальная модель - small + GQA + RoPE.

Она стала лучшей и показала следующие финальные значения:

Финальная метрика Значение
Validation loss 2.4695
Perplexity 11.82
Краткий вывод по экспериментам

RoPE оказался полезным улучшением для small + GQA модели: validation loss снизился с 2.5650 до 2.4695, а perplexity - с 13.00 до 11.82.

MLA + RoPE тоже был протестирован, но в данной постановке small + GQA + RoPE оказался лучше по итоговым метрикам.

Downloads last month
96
Safetensors
Model size
79.6M params
Tensor type
F32
·
BOOL
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support