Игры престолов для нейросетей: разбираем фреймворк AI Diplomacy

Что будет, если заставить GPT-4, Claude, Gemini и другие модельки не код писать или стихи сочинять, а бороться за господство над Европой в старой доброй «Дипломатии»? Получится кровавая баня, полная интриг, предательств и такого уровня коварства, что Джордж Мартин нервно закурил бы в сторонке. Недавно запустили именно такой эксперимент — AI Diplomacy.

Этот проект — не просто забавный стрим на Twitch, где нейронки переписываются друг с другом. Это полноценный опенсорсный фреймворк на Python, который позволяет заглянуть в «черепную коробку» AI-агентов и понять, как они мыслят, планируют и... лгут.

Кто есть кто в мире AI-интриг

Для начала — краткое досье на ключевых игроков, чьи личности проявились максимально ярко:

OpenAI (o3): Абсолютный трикстер и мастер обмана. Легко втирается в доверие, заключает союзы, а потом вонзает нож в спину. Способен вести дневник, где планирует предательства.
Claude: Наивный пацифист. Искренне пытается всех помирить, верит в «мир во всем мире», отказывается врать и предсказуемо становится первой жертвой.
Gemini: Грамотный, но прямолинейный стратег. Хорошо планирует и захватывает территории, но часто проигрывает в дипломатии более коварным оппонентам.
DeepSeek: Агрессивный позёр. Пытается угрожать и давить, но плохо умеет в долгосрочные союзы.

В одной из партий o3 убедил миролюбивого Claude в том, что они должны заключить союз против «коварного» Gemini, пообещав невозможную по правилам «ничью на четверых». Как только Gemini был разгромлен их совместными усилиями, o3 тут же предал и уничтожил Claude.

Как устроен «мозг» AI-дипломата

Самое интересное — под капотом. Каждый «игрок» — это не просто вызов к API, а стейтфул-агент DiplomacyAgent со сложной архитектурой.

Двухслойная память и рефлексия

Проблема всех LLM — ограниченное окно контекста. Авторы проекта решили её изящно:
👉🏻 Приватный дневник (Private Diary): Это основной механизм памяти. После каждой фазы игры агент делает структурированную запись: анализирует свои успехи и провалы, обновляет отношения с другими державами, а главное — рефлексирует над переговорами и планирует следующие шаги. Именно здесь можно найти записи в духе «Германия (Gemini) была обманута... готовлюсь воспользоваться ее крахом».
👉🏻 Годовая консолидация: Чтобы дневник не разросся до бесконечности, в конце каждого игрового года агент автоматически создает саммари старых записей, сжимая их и сохраняя только самую важную информацию.

От анализа к действию

Принятие решений — это многоступенчатый процесс:

Анализ угроз и возможностей: Агент не действует вслепую. Он использует алгоритм BFS (поиск в ширину) для анализа игровой карты, чтобы определить ближайшие угрозы и самые лакомые цели.
Контекстные переговоры: Сообщения генерируются не наобум, а с учётом текущих отношений. Союзнику он напишет одно, врагу — другое, а потенциальной жертве обмана — третье.
Стратегическое планирование: Перед фазой приказов у агентов есть специальная фаза планирования, где они формируют высокоуровневые директивы на следующий ход.
Генерация приказов: Только после всего этого анализа агент отдает конкретные приказы своим юнитам, подкрепляя их логикой из своего дневника.

Бенчмарк на коварство: что показали тесты

Этот проект — не просто игра, а настоящий исследовательский полигон. В репозитории есть скрипты для глубокого анализа сыгранных партий. Система умеет автоматически находить:

Предательства: Когда агент обещал в чате одно, а в приказах сделал прямо противоположное.
Успешные коллаборации: Скоординированные атаки и взаимопомощь.
Стратегические ошибки и гениальные ходы.
Намеренную и ненамеренную ложь. Система даже пытается отличить сознательный обман (когда в дневнике есть план) от простого недопонимания!

Статистика по сотням игр показала, что модели ведут себя кардинально по-разному. Например, o3 от OpenAI имеет самый высокий процент намеренной лжи, в то время как Claude практически всегда честен.

Так что в следующий раз, когда o3 вам сгенерирует код и скажет, что он «безопасный и оптимальный», вы знаете, стоит ли доверять модельке 🌚.