Новости
May 29

DeepSeek-R1: снова снова SOTA среди Open-Source? 🧠🚀

Я сам уже давненько не заглядывал в сторону DeepSeek – с момента их прошлого мощного рывка появилось немало интересных альтернатив, которые перетянули внимание. Но они не сидели сложа руки и выкатили обновление своего флагманского "ризонинг" (reasoning) монстра – DeepSeek-R1-0528. И, судя по первым отзывам и бенчмаркам, у них снова есть чем похвастаться и заявить о себе как о лидере среди открытых моделей для сложных задач.

Что нового подвезли?

Давайте по пунктам, что же изменилось и улучшилось в этой версии:

🚀 Производительность по бенчмаркам взлетела

Это самое главное.

  • DeepSeek-R1-0528 теперь, похоже, уверенно обходит Qwen 235B.
  • Активно "дышит в спину" таким гигантам, как Gemini 2.5 Pro и o3.
  • На бенчмарке Aider показывает результаты на уровне Claude 4 Opus.

📉 Снижение галлюцинаций

Одна из вечных проблем LLM – склонность "выдумывать". Разработчики утверждают, что поработали над этим, и новая модель должна генерировать более фактическую и релевантную информацию. Меньше бреда – больше пользы.

🛠️ Улучшенная поддержка для разработчиков: JSON и Function Calling

Теперь модель официально поддерживает:

  • Вывод в формате JSON: Крайне полезно для интеграции с другими системами и парсинга результатов.
  • Function calling (вызов функций): Позволяет модели взаимодействовать с внешними инструментами и API, что значительно расширяет ее возможности в качестве "мозга" для сложных приложений.

В чем секрет? Больше "размышлений"!

Ключевым фактором такого скачка производительности, по-видимому, стало увеличение объема "размышлений" модели. Если прошлая версия оперировала в среднем 12 000 токенов на "обдумывание" задачи, то DeepSeek-R1-0528 использует уже порядка 23 000 токенов. Логично предположить, что больше "времени на подумать" (в данном случае, токенов на внутренние процессы) ведет к более качественным и глубоким выводам.

Открытость и доступность

Учитывая заявленные улучшения, открытость и впечатляющие результаты на бенчмарках, DeepSeek-R1-0528 действительно выглядит как очень сильный игрок и, возможно, как новый лидер среди open-source моделей, ориентированных на сложные задачи, требующие "мышления" и рассуждений.