RoboBrain 2.0: открытые «мозги» для роботов, которые умеют думать вслух

В мире AI сейчас модно говорить про Embodied AI — искусственный интеллект, воплощённый в физической форме. Но большинство прорывных разработок в этой сфере остаются за закрытыми дверями корпораций. Тем интереснее выглядит релиз RoboBrain 2.0 от китайской исследовательской лаборатории BAAI — это мощная, а главное, открытая модель для управления роботами.

Проект громко заявляет: "See Better. Think Harder. Do Smarter." Давайте посмотрим, есть ли за этими словами что-то, кроме маркетинга.

Что это за RoboBrain 2.0?

Разработчики называют свою модель не просто VLA (Vision-Language-Action), а "моделью мозга" (brain model). Идея в том, чтобы создать универсальную систему, способную решать широкий спектр роботизированных задач, а не быть заточенной под что-то одно.

Ключевые возможности, которые засунули под капот:

Долгосрочное планирование и рассуждение: Модель может выстраивать сложные цепочки действий для достижения цели.
Пространственное восприятие: RoboBrain 2.0 умеет с высокой точностью определять положение объектов в пространстве, предсказывать их траекторию и даже находить "свободные" места по словесному описанию.
Работа с обратной связью (Closed-loop): Система способна корректировать свои действия на лету, получая данные из реального мира.
Структурированная память: Модель строит и постоянно обновляет "карту сцены", что позволяет ей ориентироваться в динамическом окружении.

Главная фишка: режим мышления

Самая крутая и полезная фича — это возможность заглянуть модели в "голову". При вызове API можно передать параметр enable_thinking=True, и тогда RoboBrain не просто вернёт результат, а подробно опишет свою логику рассуждений.

Это превращает модель из чёрного ящика в прозрачный инструмент. Вместо того чтобы гадать, почему робот решил схватить чашку именно так, вы получаете текстовое объяснение его "мыслей". Для отладки и понимания — бесценно.

Вот как это выглядит на практике. Задача: "возьми чашку" (hold the cup).

from inference import SimpleInference

model = SimpleInference("BAAI/RoboBrain2.0-7B")
prompt = "hold the cup"
image = "./assets/demo/affordance.jpg"

pred = model.inference(prompt, image, task="affordance", enable_thinking=True)
print(pred)

И вот что модель выдаёт в поле 'thinking':

From the visual input, the object is recognized as a white ceramic cup with a handle on its side... My end-effector is equipped with a gripper capable of securely engaging objects of this size... The current task is to hold the cup, which necessitates securely gripping it by the handle... Verifying the handle's suitability, it seems sufficiently robust... Therefore, the cup's affordance area is.

Это уже уровень, который позволяет не просто использовать модель, а по-настоящему с ней взаимодействовать и понимать её решения.

Архитектура и производительность

Под капотом — довольно стандартная для таких систем архитектура: Vision Encoder для обработки изображений и видео, который через проектор передаёт данные в большой языковой декодер.

Разработчики уже выложили 7-миллиардную версию модели, а скоро обещают 32B. И вот она, судя по их отчётам, на специализированных бенчмарках для робототехники (таких как RefSpatial) обходит не только открытых конкурентов, но и закрытых гигантов вроде Gemini 2.5 Pro и Claude Sonnet 4.

Возможно, именно такие открытые проекты, а не закрытые API от гигантов, станут настоящим катализатором революции в робототехнике. Ведь одно дело — платить за каждый чих робота, и совсем другое — иметь возможность запустить его "мозг" у себя, залезть ему в голову и понять, почему он решил сделать именно так, а не иначе.