ERNIE 4.5 от Baidu

Китайский гигант Baidu выкатил в опенсорс целое семейство моделей ERNIE 4.5. И не просто веса на Hugging Face закинули, а представили полноценную экосистему с инструментами для дообучения и деплоя.

Давайте разберёмся, что там под капотом 👇🏻

Что вообще выкатили?

ERNIE 4.5 — это не одна модель, а целая семья из 10 различных вариантов, построенных на архитектуре Mixture-of-Experts (MoE) и не только.

Тяжеловесы (MoE): Самая большая модель имеет 424B параметров, но благодаря MoE-архитектуре в каждый момент времени активны «всего» 47B. Есть и версия поменьше: 21B общих и 3B активных параметров.
Малыш (Dense): Для тех, у кого нет под рукой кластера из H100, есть компактная модель на 0.3B параметров.
Мультимодальность: Часть моделей — классические LLM (текст-в-текст), а часть — VLM, способные понимать не только текст, но и изображения с видео.

Все модели доступны под либеральной лицензией Apache 2.0. Это значит — бери и используй, в том числе в коммерческих проектах.

Ключевые фишки: чем хвастаются китайцы?

В документации Baidu выделяют три основных инновации, которые, по их мнению, и делают ERNIE 4.5 таким крутым.

1. Мультимодальная гетерогенная MoE-архитектура 🧠

Звучит страшно, но идея простая. Обычно, когда пытаешься научить одну модель работать и с текстом, и с картинками, одна модальность начинает «мешать» другой. Китайцы заявляют, что придумали хитрую структуру MoE, где есть как общие для всех модальностей параметры, так и выделенные «эксперты» для каждой.

Проще говоря, они спроектировали модель так, чтобы понимание картинок не ухудшало, а наоборот, улучшало её способности в работе с текстом. Если это действительно так, то это серьёзный шаг вперёд в построении по-настоящему мультимодальных систем.

2. Эффективная инфраструктура и деплой 🚀

Весь этот зоопарк моделей обучался на собственном фреймворке Baidu — PaddlePaddle. Они хвастаются дикой эффективностью (до 47% MFU на претрейне) и кучей оптимизаций для инференса, включая квантизацию до 4-бит и даже 2-бит без особых потерь в качестве. Это значит, что даже большие модели можно будет запускать на более-менее вменяемом железе.

3. Специализированный пост-трейнинг 👨🏻‍💻

Базовые модели дополнительно дообучали под конкретные задачи с помощью SFT, DPO и даже собственного метода UPO. В итоге мы имеем не просто сырые pre-trained модели, а уже готовые к работе инструменты, заточенные либо под генерацию текста, либо под сложные визуально-языковые задачи.

А что по цифрам? Сравнение с конкурентами

Как водится, в таких релизах без пачки бенчмарков, где новая модель всех побеждает, никуда.

ERNIE-4.5-300B-A47B (топовая LLM) якобы обходит DeepSeek-V3-671B-A37B на большинстве тестов, особенно в знании фактов и следовании инструкциям.
ERNIE-4.5-21B-A3B (младшая LLM) показывает себя на уровне или даже лучше Qwen3-30B-A3B на задачах по математике и логике, имея при этом на 30% меньше параметров.
Мультимодальная ERNIE-4.5-VL-424B-A47B показывает SOTA-результаты на сложных бенчмарках вроде MathVista и MMMU, особенно в режиме "thinking mode" (когда модель сначала рассуждает, а потом отвечает).

Главный прикол: экосистема на PaddlePaddle

И вот мы подходим к самому интересному. Baidu выложили не просто модели, а полный инструментарий для работы с ними.

ERNIEKit — тулкит для дообучения. Поддерживает всё, что нужно: SFT, DPO (в том числе LoRA-версии), QAT и прочие страшные аббревиатуры.

FastDeploy — тулкит для инференса. Позволяет развернуть модель для оффлайн-обработки или поднять API-сервер, совместимый с OpenAI.

Начать работу с самой маленькой моделью можно буквально в несколько команд:

# Установка
# pip install ...

# Оффлайн-инференс
from fastdeploy import LLM, SamplingParams

prompt = "Напиши стих про фреймворк PaddlePaddle."
sampling_params = SamplingParams(temperature=0.8, top_p=0.95)

llm = LLM(model="baidu/ERNIE-4.5-0.3B-Paddle", max_model_len=32768)

outputs = llm.generate(prompt, sampling_params)
print(outputs[0].text)

Вся эта красота работает исключительно на PaddlePaddle. Хочешь нашу крутую модель — добро пожаловать в нашу экосистему. Очень хитрый, но и вполне логичный способ продвижения своего фреймворка.

Итоги: так качать или нет?

Выпуск ERNIE 4.5 — это однозначно знаковое событие. Baidu не просто догнали западных конкурентов, но и предложили зрелую, полностью открытую экосистему для работы с SOTA-моделями.

Плюсы очевидны:

Отличные заявленные характеристики.
Широкий выбор моделей под разные задачи и бюджеты.
Полный набор инструментов для fine-tuning и деплоя.
Лицензия Apache 2.0.

Главный минус (или фича?):

Жёсткая привязка к фреймворку PaddlePaddle. Для большинства разработчиков, привыкших к PyTorch, это станет барьером.