miniDiffusion: разбираем Stable Diffusion 3.5 на атомы в 2800 строк кода

Большинство современных AI-фреймворков — это чёрные ящики, созданные для того, чтобы вы ими пользовались, а не понимали их. Библиотеки вроде diffusers от Hugging Face, при всей их мощи, скрывают реальную логику за таким количеством слоёв абстракций, что разобраться в них без бутылки бывает нереально.

Именно поэтому такие проекты, как miniDiffusion, — это глоток свежего воздуха для любого думающего разработчика. Это полная, но предельно упрощённая реализация Stable Diffusion 3.5, написанная с нуля на чистом PyTorch. И всё это — в каких-то ~2800 строках кода.

Что такое miniDiffusion?

Это образовательный проект, цель которого — показать, как собрать современную диффузионную модель с минимальными усилиями и зависимостями. Автор выкинул всю "промышленную" шелуху и оставил только суть.

Внутри есть всё, что нужно для жизни:

Основная модель DiT (Diffusion Transformer) в файле dit.py.
Компоненты для DiT: эмбеддинги, нормализация и т.д. в dit_components.py.
Joint Attention: реализация механизма внимания из SD3 в attention.py.
Энкодеры: поддержка T5 и CLIP для обработки текста.
VAE и Euler Scheduler для работы с шумом и генерацией.
Скрипты для обучения и подсчёт метрики FID.

По сути, это полный пайплайн, от токенизации промпта до финального изображения, но в максимально читаемом и компактном виде.

Почему это важно (и полезнее, чем копаться в diffusers)?

Ценность этого проекта не в том, чтобы генерировать картинки. Его ценность — образовательная.

Прозрачность. Вы видите голый код, а не десять слоев классов-наследников и запутанных конфигурационных файлов. Хотите понять, как работает Joint Attention? Открываете один файл на 100 строк, а не продираетесь через дебри официальной библиотеки.
Простота для экспериментов. Хотите что-то поменять в архитектуре? Добавить свой слой? Попробовать другой планировщик? Здесь это можно сделать за пару часов, а не за пару дней изучения документации и структуры фреймворка.
Демистификация. Такие проекты доказывают, что за громкими названиями вроде Stable Diffusion 3.5 стоит не какая-то инопланетная магия, а вполне понятная математика и код. Это снижает порог входа для тех, кто хочет не просто дёргать API, а создавать что-то своё.

Этот проект — идеальный ответ на вопрос "С чего начать, если я хочу понять, как работают современные диффузионки?". Начинать нужно не с документации на 1000 страниц, а с таких вот минималистичных реализаций.

Для кого этот проект?

Для студентов и начинающих ML-инженеров, которые хотят понять диффузионные модели на практике.
Для исследователей, которым нужна простая и гибкая база для экспериментов с новыми архитектурами.
Для всех любопытных программистов, которые устали от чёрных ящиков и хотят заглянуть "под капот".

Вердикт

miniDiffusion — это не инструмент для продакшена. Это учебное пособие, песочница, конструктор. Это блестящий пример того, как сложные вещи можно объяснить просто, если отбросить всё лишнее.

Проект не поможет вам одной кнопкой сгенерировать идеального котика. Но он поможет вам понять, из чего этот котик на самом деле состоит и как научить нейросеть рисовать его ещё лучше. А может, и нет 🤷🏻‍♂️.