Как собрать свой GPT с нуля: 4-часовой мастер-класс от Карпатого

Есть контент, который не стареет. Например, туториал от Андрея Карпатого, где он с нуля на Python собирает и тренирует GPT.

Кто такой Андрей Карпатый и почему его стоит слушать?

Для тех, кто не в теме, Карпатый — это тяжеловес в мире AI. Один из отцов-основателей OpenAI, бывший директор по искусственному интеллекту в Tesla, учёный из Стэнфорда. В общем, человек, который не просто рассказывает об AI, а строил его своими руками.

О чём этот туториал?

Это не поверхностный гайд. За 4 часа Карпатый проходит весь цикл создания языковой модели на доступном примере:

Сборка нейросети: Построение архитектуры GPT-2 с помощью torch.nn.Module.
Оптимизация: Разгон скорости обучения с помощью mixed precision, Flash Attention и torch.compile.
Настройка обучения: Выбор гиперпараметров (learning rate, batch size, weight decay) в соответствии с оригинальными пейперами GPT-2.
Тренировка и оценка: Запуск процесса на реальном датасете, валидация и даже оценка качества модели на бенчмарке HellaSwag.

В конце вы получаете не просто скрипт, а полное понимание, почему он написан именно так.

Почему GPT-2?

Многие могут сказать: «Пфф, GPT-2, это же прошлый век!». Но такой пример очень хорош по следующим причинам:

Доступность. GPT-2 (версия на 124М параметров) — это модель, которую можно полностью обучить с нуля на одной не самой мощной GPU.
Воспроизводимость. Вы можете в точности повторить эксперимент и сравнить свои результаты с результатами из оригинальной научной статьи OpenAI.
Фундаментальность. Разница между GPT-2 и более современными моделями — не фундаментальная пропасть. Поняв, как работает GPT-2, вы разберётесь в архитектуре любой современной модели.

Весь код с видео доступен на GitHub 🐍