🔥 Devstral от Mistral: новый опенсорсный король? 👑
Похоже, ребята из Mistral AI не сидели сложа руки и решили снова напомнить о себе громким релизом. Встречайте Devstral – их новую большую языковую модель (LLM), специально заточенную под задачи программной инженерии. И что самое интересное – это не просто очередная "писалка кода", а модель, спроектированная для работы в качестве "агента", способного решать реальные проблемы в кодовых базах.
Разработанный в сотрудничестве с All Hands AI (да-да, теми самыми, кто стоит за агентским фреймворком OpenHands), Devstral обещает значительный скачок производительности для опенсорсных решений. Давайте разберемся, что к чему.
Что такое Devstral?
В отличие от стандартных LLM, которые неплохо справляются с атомарными задачами вроде написания отдельных функций или автодополнения кода, Devstral нацелен на решение более комплексных, "реальномирных" проблем разработчиков. Это включает в себя понимание контекста в больших кодовых базах, выявление связей между различными компонентами и поиск неочевидных багов.
Ключевая фишка Devstral – его обучение на решении настоящих GitHub issues. Модель работает поверх агентских "каркасов" (scaffolds) вроде OpenHands или SWE-Agent, которые определяют интерфейс взаимодействия модели с кодом и тестовыми случаями.
Производительность
Mistral AI приводит впечатляющие цифры на бенчмарке SWE-Bench Verified (набор из 500 реальных GitHub issues, проверенных вручную):
- 46.8% – таков результат Devstral. Это, как утверждается, более чем на 6 процентных пунктов выше, чем у предыдущих state-of-the-art опенсорсных моделей.
- При сравнении на одном и том же "каркасе" (OpenHands), Devstral (24B параметров) обходит даже значительно более крупные модели, такие как Deepseek-V3-0324 (671B) и Qwen3 232B-A22B.
- Интересно, что Devstral также показывает зубы и закрытым аналогам. Например, он превосходит недавний GPT-4.1-mini более чем на 20%, и даже Claude 3.5 Haiku (около 40%) остается позади.
Стоит отметить, что высокие результаты Devstral могут быть частично обусловлены его тесной интеграцией и оптимизацией под агентские фреймворки, такие как OpenHands. Это не умаляет достижения, но подчеркивает важность всей экосистемы 'модель + агентская обвязка'.
Размер и доступность
Одно из ключевых преимуществ Devstral – его относительная легковесность:
- Модель может работать на одной видеокарте RTX 4090 или даже на Mac с 32GB оперативной памяти. Это открывает двери для локального развертывания и использования на устройствах.
- Такая производительность при умеренном размере делает его привлекательным для использования в корпоративной среде с чувствительными к приватности репозиториями.
- Лицензия: Apache 2.0. Это значит – бери и используй, в том числе в коммерческих проектах.
- Веса: Уже доступны на HuggingFace, а также на Ollama, Kaggle, Unsloth, LM Studio.
- API: Модель доступна через API Mistral AI под именем devstral-small-2505 по цене $0.1 за миллион входных токенов и $0.3 за миллион выходных токенов (аналогично Mistral Small 3.1).
Нюансы
Давненько Mistral не радовал нас такими громкими и, что важно, открытыми релизами. Devstral выглядит действительно интересно, особенно в контексте развития локальных и агентных помощников для кодинга.
Однако, как всегда, есть нюансы:
- "Research Preview": Сами разработчики называют это "исследовательским превью". Это значит, что модель может быть еще сыровата, и ее реальная эффективность в разнообразных сценариях покажет только время и опыт сообщества.
- Специализация vs. Универсальность: Модель явно заточена под работу с агентскими фреймворками. Насколько она будет полезна "в отрыве" от них или в задачах, выходящих за рамки типичных GitHub issues – вопрос открытый.
- Будущие Модели: Mistral обещает "более крупную агентскую модель для кодинга" в ближайшие недели. Тут возникает закономерный вопрос: сохранит ли она такую же степень открытости? История знает примеры, когда "старшие братья" становились менее доступными 🌚.