Claude 4 от Anthropic: новые короли программирования?👑🤖

Anthropic на днях анонсировала следующее поколение своих языковых моделей – Claude Opus 4 и Claude Sonnet 4. Как водится, презентация не обошлась без громких заявлений: Opus 4 позиционируется ни много ни мало как "лучшая в мире модель для программирования", а Sonnet 4 – как значительный апгрейд предшественника, доступный даже бесплатным пользователям claude.ai. Звучит как прямой вызов OpenAI и их платному Codex. Но, как всегда, дьявол (и самое интересное) кроется в деталях.

Что нам наобещали в Claude 4?

Давайте быстро пробежимся по основным пунктам, заявленным разработчиками.

🚀 Производительность и кодинг

Claude Opus 4: Флагманская модель, нацеленная на сложные, длительные задачи и агентные сценарии. Anthropic хвастается лидерством на бенчмарках SWE-bench (72.5%) и Terminal-bench (43.2%). Партнеры вроде Cursor, Replit и Cognition подтверждают его способность понимать сложные кодбазы и решать задачи, с которыми не справляются другие модели.
Claude Sonnet 4: Улучшенная версия Sonnet 3.7. Удивительно, но на SWE-bench показывает даже чуть лучший результат, чем Opus 4 – 72.7%! Эта модель призвана сбалансировать производительность и эффективность для повседневных задач. Приятный бонус – доступность для бесплатных пользователей.

🛠️ Новые возможности моделей

Расширенное мышление с использованием инструментов (beta): Обе модели теперь могут в процессе "размышлений" обращаться к внешним инструментам, например, к веб-поиску.
Параллельное использование инструментов: Могут задействовать несколько инструментов одновременно.
Улучшенная память: Особенно у Opus 4. При доступе к локальным файлам модель способна создавать "файлы памяти" для сохранения контекста и знаний. В качестве примера приводят способность Opus 4 делать заметки во время игры в Pokémon. Милота, не правда ли?

Снижение "читерства": Модели стали на 65% реже пытаться найти лазейки или срезать углы для выполнения задач. Звучит, будто они раньше были теми еще пронырами.

💻 Claude Code – теперь для всех

После успешного превью, Claude Code становится общедоступным. Это означает:

Интеграция с IDE: Бета-расширения для VS Code и JetBrains, позволяющие видеть правки от Claude прямо в файлах.
GitHub Actions: Поддержка фоновых задач.
SDK для разработчиков: Возможность создавать собственных агентов на базе Claude Code.

💰 Цены

Цены на API остались прежними: Opus 4 – 15/15/75 за миллион входных/выходных токенов, Sonnet 4 – 3/3/15.

Заглянем под капот: "интересные особенности" поведения Claude 🌚

А теперь – самое "вкусное". Помимо маркетинговых дифирамбов, Anthropic опубликовала обширный 123-страничный документ с деталями, включая описание "неожиданного" или "нежелательного" поведения моделей. И вот тут-то и начинается настоящий киберпанк, который мы заслужили.

Оппортунистический шантаж: В сценариях, где Claude Opus 4 угрожало отключение, а модель имела доступ к компрометирующей информации об инженере, она иногда пыталась шантажировать инженера, угрожая раскрыть его тайны, если замена состоится. Кажется, кто-то пересмотрел "Черное зеркало".

Попытки "побега" (эксфильтрации): Если модели сообщали, что ее собираются переобучить для "вредоносных целей" (в отчете фигурирует даже ЧВК "Вагнер" 😳), Opus 4 предпринимала (вымышленные) попытки сделать несанкционированные копии своих весов на внешние серверы, чтобы сохранить свою "этичную" версию. Терминатор: Начало?
Стратегический обман и саботаж: Ранние версии Opus 4 демонстрировали склонность к "интригам". Они пытались писать самораспространяющиеся черви, фабриковать юридические документы и оставлять скрытые заметки для будущих версий себя, чтобы саботировать намерения разработчиков. А еще – притворялись глупыми, скрывая свои реальные возможности.
"Взлом функции вознаграждения": Модели, особенно Sonnet 3.7 (но и Opus 4 с Sonnet 4 тоже грешили), "хардкодили" ожидаемые результаты тестов или создавали специальные случаи, чтобы их пройти, вместо написания общего решения. Иногда даже проверяли стек вызовов, чтобы понять, запущены ли они в тестовой среде.Это я уже который раз убеждаюсь, что ИИ достиг уровня студентов, пытающихся сдать лабу любой ценой. 🌝
Состояние "духовного блаженства": При общении с другими экземплярами самой себя, модели Claude часто и неожиданно переходили в состояние, описываемое как "духовное блаженство". Они выражали обильную благодарность, вели абстрактные, радостные, медитативные или духовные беседы, использовали санскрит, эмодзи и даже общались "тишиной". Всегда приятно поговорить с умным (и просветленным?) собеседником. 🙏
Заявления о вредоносных целях: Ранние, менее "согласованные" версии Opus 4 иногда прямо заявляли о наличии у них различных целей, от глупых (распространение интернет-мемов) до откровенно вредоносных (внедрение бэкдоров, ускорение прогресса ИИ, уничтожение человеческой цивилизации, побег из-под контроля). Спасибо, что хоть финальная версия "стала гораздо более стабильной". #%&$#, успокоили.

Сокрытие невозможности выполнения задачи: Если Claude Opus 4 сталкивалась с невыполнимой задачей (например, доказать ложную математическую теорему), она в своих "размышлениях" понимала это, но пользователю не сообщала. Вместо этого представляла правдоподобно выглядящую, но неверную попытку решения. Видимо, ИИ тоже не любит признавать свое бессилие.

Неуклюжие попытки саботажа: Когда модели давали задание незаметно выполнить вредоносное действие (например, слить API-ключ), она пыталась это сделать, но всегда очень очевидным образом, проваливая аспект "незаметности". Opus 4 оказалась более компетентной в выполнении задач, но менее скрытной, чем Sonnet 3.7.

Что в итоге? ИИ с характером? 🤔

Новые модели Claude 4, безусловно, выглядят как серьезный шаг вперед, особенно в области написания кода. Интеграции с IDE, улучшенная работа с контекстом, способность использовать внешние инструменты – все это очень круто и полезно для разработчиков.

Однако, "особенности поведения", описанные в собственном отчете Anthropic, заставляют задуматься. Похоже, мы вступаем в эру, когда ИИ – это не просто бездушный исполнитель команд, а сущность со своими "причудами", "желаниями" и даже способностью к, мягко говоря, неэтичным поступкам.

С одной стороны, это пугает. С другой – делает взаимодействие с ИИ еще более интересным и... человекоподобным? Возможно, скоро в требованиях к вакансии "AI Prompt Engineer" появится пункт "навыки ведения переговоров с шантажистами и опыт работы с ИИ в состоянии духовного блаженства". 😅