Вчерашние громкие релизы 🤖

Европейцы из Mistral наконец-то выкатили свою "думающую" модель, а OpenAI молча подняли планку, выпустив ультимативного "профессионала" и сопроводив это философским эссе от своего CEO.

Mistral Magistral — громкий анонс, скромные результаты

Все ждали от Mistral мощного ответа гигантам. Ещё бы, европейская надежда, чемпионы опенсорса! И вот они дропнули Magistral — свою первую reasoning-модель, созданную специально для решения сложных задач.

Что выкатили?

Релиз двойной:

🟢 Magistral Small — опенсорсная модель на 24B параметров. Уже лежит на Hugging Face, так что если у вас под столом завалялась какая-нибудь RTX 4090, можете попробовать развернуть её локально. Обещают поддержку русского языка и контекстное окно в 128k токенов.
🟠 Magistral Medium — старшая, более мощная, но уже закрытая enterprise-версия. Бесплатно пощупать её можно в их фирменном Le Chat.

Получилось, скажем так, неоднозначно 🌚.

Судя по первым тестам, Magistral Medium не может обогнать даже январскую версию DeepSeek R1, не говоря уже о более свежих релизах конкурентов. При этом цена за API на Medium выше, чем у моделей, которые объективно на голову, а то и на две, умнее.

С опенсорсной Magistral Small ситуация не лучше — она уступает даже китайской Qwen 3 с 8B параметрами.

Ложка мёда в бочке дёгтя

Справедливости ради, есть и пара позитивных моментов. Во-первых, Mistral опубликовали очень детальный технический отчёт о том, как они тренировали модель. За такую открытость — респект. Во-вторых, они хвастаются, что в Le Chat их модель работает с бешеной скоростью — до 10 раз быстрее конкурентов благодаря технологии Flash Answers.

Но когда тебе нужно решить сложную проблему с кодом, хочется в первую очередь получить правильный ответ, а не очень быстрый, но неправильный.

o3-pro от OpenAI

А пока Mistral пытались догнать вчерашний день, OpenAI показали, как выглядит день завтрашний. Они выкатили o3-pro — свою самую умную и надёжную модель на текущий момент.

Особенно отмечают буст в задачах программирования, математике и науке. В OpenAI утверждают, что в экспертных слепых тестах o3-pro рвёт обычную o3 по всем фронтам, особенно в точности и следовании инструкциям.

В OpenAI утверждают, что в слепых тестах эксперты стабильно предпочитают ответы o3-pro ответам обычной o3, отмечая лучшую точность, ясность и способность следовать сложным инструкциям.

o3-pro уже доступна для подписчиков Pro и Team (с вас 200 баксов!), а также в API.

Философская пауза от Сэма Альтмана

Релиз o3-pro сопроводили публикацией эссе Сэма Альтмана «The Gentle Singularity»

Мы миновали горизонт событий; взлёт начался... 2025 год ознаменовался появлением агентов, способных выполнять реальную когнитивную работу; написание компьютерного кода уже никогда не будет прежним. В 2026 году, вероятно, появятся системы, способные находить новые научные идеи. В 2027 году могут появиться роботы, способные выполнять задачи в реальном мире.

По его прогнозам, мир ждёт невиданное изобилие интеллекта и энергии, а наши сегодняшние "важные" задачи и профессии через 10 лет будут казаться игрой. Примерно как современный скрам-митинг показался бы средневековому фермеру.