ERNIE 4.5 от Baidu
Китайский гигант Baidu выкатил в опенсорс целое семейство моделей ERNIE 4.5. И не просто веса на Hugging Face закинули, а представили полноценную экосистему с инструментами для дообучения и деплоя.
Давайте разберёмся, что там под капотом 👇🏻
Что вообще выкатили?
ERNIE 4.5 — это не одна модель, а целая семья из 10 различных вариантов, построенных на архитектуре Mixture-of-Experts (MoE) и не только.
- Тяжеловесы (MoE): Самая большая модель имеет 424B параметров, но благодаря MoE-архитектуре в каждый момент времени активны «всего» 47B. Есть и версия поменьше: 21B общих и 3B активных параметров.
- Малыш (Dense): Для тех, у кого нет под рукой кластера из H100, есть компактная модель на 0.3B параметров.
- Мультимодальность: Часть моделей — классические LLM (текст-в-текст), а часть — VLM, способные понимать не только текст, но и изображения с видео.
Все модели доступны под либеральной лицензией Apache 2.0. Это значит — бери и используй, в том числе в коммерческих проектах.
Ключевые фишки: чем хвастаются китайцы?
В документации Baidu выделяют три основных инновации, которые, по их мнению, и делают ERNIE 4.5 таким крутым.
1. Мультимодальная гетерогенная MoE-архитектура 🧠
Звучит страшно, но идея простая. Обычно, когда пытаешься научить одну модель работать и с текстом, и с картинками, одна модальность начинает «мешать» другой. Китайцы заявляют, что придумали хитрую структуру MoE, где есть как общие для всех модальностей параметры, так и выделенные «эксперты» для каждой.
Проще говоря, они спроектировали модель так, чтобы понимание картинок не ухудшало, а наоборот, улучшало её способности в работе с текстом. Если это действительно так, то это серьёзный шаг вперёд в построении по-настоящему мультимодальных систем.
2. Эффективная инфраструктура и деплой 🚀
Весь этот зоопарк моделей обучался на собственном фреймворке Baidu — PaddlePaddle. Они хвастаются дикой эффективностью (до 47% MFU на претрейне) и кучей оптимизаций для инференса, включая квантизацию до 4-бит и даже 2-бит без особых потерь в качестве. Это значит, что даже большие модели можно будет запускать на более-менее вменяемом железе.
3. Специализированный пост-трейнинг 👨🏻💻
Базовые модели дополнительно дообучали под конкретные задачи с помощью SFT, DPO и даже собственного метода UPO. В итоге мы имеем не просто сырые pre-trained модели, а уже готовые к работе инструменты, заточенные либо под генерацию текста, либо под сложные визуально-языковые задачи.
А что по цифрам? Сравнение с конкурентами
Как водится, в таких релизах без пачки бенчмарков, где новая модель всех побеждает, никуда.
- ERNIE-4.5-300B-A47B (топовая LLM) якобы обходит DeepSeek-V3-671B-A37B на большинстве тестов, особенно в знании фактов и следовании инструкциям.
- ERNIE-4.5-21B-A3B (младшая LLM) показывает себя на уровне или даже лучше Qwen3-30B-A3B на задачах по математике и логике, имея при этом на 30% меньше параметров.
- Мультимодальная ERNIE-4.5-VL-424B-A47B показывает SOTA-результаты на сложных бенчмарках вроде MathVista и MMMU, особенно в режиме "thinking mode" (когда модель сначала рассуждает, а потом отвечает).
Главный прикол: экосистема на PaddlePaddle
И вот мы подходим к самому интересному. Baidu выложили не просто модели, а полный инструментарий для работы с ними.
ERNIEKit — тулкит для дообучения. Поддерживает всё, что нужно: SFT, DPO (в том числе LoRA-версии), QAT и прочие страшные аббревиатуры.
FastDeploy — тулкит для инференса. Позволяет развернуть модель для оффлайн-обработки или поднять API-сервер, совместимый с OpenAI.
Начать работу с самой маленькой моделью можно буквально в несколько команд:
# Установка # pip install ... # Оффлайн-инференс from fastdeploy import LLM, SamplingParams prompt = "Напиши стих про фреймворк PaddlePaddle." sampling_params = SamplingParams(temperature=0.8, top_p=0.95) llm = LLM(model="baidu/ERNIE-4.5-0.3B-Paddle", max_model_len=32768) outputs = llm.generate(prompt, sampling_params) print(outputs[0].text)
Вся эта красота работает исключительно на PaddlePaddle. Хочешь нашу крутую модель — добро пожаловать в нашу экосистему. Очень хитрый, но и вполне логичный способ продвижения своего фреймворка.
Итоги: так качать или нет?
Выпуск ERNIE 4.5 — это однозначно знаковое событие. Baidu не просто догнали западных конкурентов, но и предложили зрелую, полностью открытую экосистему для работы с SOTA-моделями.
- Отличные заявленные характеристики.
- Широкий выбор моделей под разные задачи и бюджеты.
- Полный набор инструментов для fine-tuning и деплоя.
- Лицензия Apache 2.0.
- Жёсткая привязка к фреймворку PaddlePaddle. Для большинства разработчиков, привыкших к PyTorch, это станет барьером.