🔥 Devstral от Mistral: новый опенсорсный король? 👑

Похоже, ребята из Mistral AI не сидели сложа руки и решили снова напомнить о себе громким релизом. Встречайте Devstral – их новую большую языковую модель (LLM), специально заточенную под задачи программной инженерии. И что самое интересное – это не просто очередная "писалка кода", а модель, спроектированная для работы в качестве "агента", способного решать реальные проблемы в кодовых базах.

Разработанный в сотрудничестве с All Hands AI (да-да, теми самыми, кто стоит за агентским фреймворком OpenHands), Devstral обещает значительный скачок производительности для опенсорсных решений. Давайте разберемся, что к чему.

Что такое Devstral?

В отличие от стандартных LLM, которые неплохо справляются с атомарными задачами вроде написания отдельных функций или автодополнения кода, Devstral нацелен на решение более комплексных, "реальномирных" проблем разработчиков. Это включает в себя понимание контекста в больших кодовых базах, выявление связей между различными компонентами и поиск неочевидных багов.

Ключевая фишка Devstral – его обучение на решении настоящих GitHub issues. Модель работает поверх агентских "каркасов" (scaffolds) вроде OpenHands или SWE-Agent, которые определяют интерфейс взаимодействия модели с кодом и тестовыми случаями.

Производительность

Mistral AI приводит впечатляющие цифры на бенчмарке SWE-Bench Verified (набор из 500 реальных GitHub issues, проверенных вручную):

46.8% – таков результат Devstral. Это, как утверждается, более чем на 6 процентных пунктов выше, чем у предыдущих state-of-the-art опенсорсных моделей.
При сравнении на одном и том же "каркасе" (OpenHands), Devstral (24B параметров) обходит даже значительно более крупные модели, такие как Deepseek-V3-0324 (671B) и Qwen3 232B-A22B.
Интересно, что Devstral также показывает зубы и закрытым аналогам. Например, он превосходит недавний GPT-4.1-mini более чем на 20%, и даже Claude 3.5 Haiku (около 40%) остается позади.

SWE-Bench Verified Performance (%)" с официального сайта Mistral AI

Стоит отметить, что высокие результаты Devstral могут быть частично обусловлены его тесной интеграцией и оптимизацией под агентские фреймворки, такие как OpenHands. Это не умаляет достижения, но подчеркивает важность всей экосистемы 'модель + агентская обвязка'.

Размер и доступность

Одно из ключевых преимуществ Devstral – его относительная легковесность:

Модель может работать на одной видеокарте RTX 4090 или даже на Mac с 32GB оперативной памяти. Это открывает двери для локального развертывания и использования на устройствах.
Такая производительность при умеренном размере делает его привлекательным для использования в корпоративной среде с чувствительными к приватности репозиториями.

Доступность:

Лицензия: Apache 2.0. Это значит – бери и используй, в том числе в коммерческих проектах.
Веса: Уже доступны на HuggingFace, а также на Ollama, Kaggle, Unsloth, LM Studio.
API: Модель доступна через API Mistral AI под именем devstral-small-2505 по цене $0.1 за миллион входных токенов и $0.3 за миллион выходных токенов (аналогично Mistral Small 3.1).

Нюансы

Давненько Mistral не радовал нас такими громкими и, что важно, открытыми релизами. Devstral выглядит действительно интересно, особенно в контексте развития локальных и агентных помощников для кодинга.

Однако, как всегда, есть нюансы:

"Research Preview": Сами разработчики называют это "исследовательским превью". Это значит, что модель может быть еще сыровата, и ее реальная эффективность в разнообразных сценариях покажет только время и опыт сообщества.
Специализация vs. Универсальность: Модель явно заточена под работу с агентскими фреймворками. Насколько она будет полезна "в отрыве" от них или в задачах, выходящих за рамки типичных GitHub issues – вопрос открытый.
Будущие Модели: Mistral обещает "более крупную агентскую модель для кодинга" в ближайшие недели. Тут возникает закономерный вопрос: сохранит ли она такую же степень открытости? История знает примеры, когда "старшие братья" становились менее доступными 🌚.