Опенсорс
May 28

GPT Researcher напишет за вас исследование🕵️‍♂️

GPT Researcher – open-source проект, который позиционируется как "глубокий исследовательский агент", способный генерировать подробные, фактические и непредвзятые отчеты с цитатами.

Почему это должно быть лучше, чем просто "погуглить"?

Авторы GPT Researcher выделяют несколько проблем, которые их инструмент призван решить:

  • Время и ресурсы: Ручной объективный анализ может занимать недели.
  • Устаревшая информация в LLM: Модели, обученные на старых данных, могут "галлюцинировать" и быть нерелевантными для текущих исследований.
  • Ограничения токенов: Стандартные LLM не всегда справляются с генерацией длинных отчетов.
  • Мелкие и предвзятые источники: Ограниченный доступ к веб-источникам у существующих сервисов может приводить к дезинформации и поверхностным результатам.

Звучит логично. Но как именно GPT Researcher пытается с этим бороться?

Архитектура и принцип работы

В основе лежит идея разделения труда между специализированными агентами:

  1. Создание задачи: На основе вашего запроса формируется специфический агент.
  2. Планировщик (Planner): Генерирует набор исследовательских вопросов, которые в совокупности должны сформировать объективное мнение по заданной теме. Этот подход вдохновлен идеями из научных работ "Plan-and-Solve" и RAG (Retrieval-Augmented Generation).
  3. Исполнители (Execution Agents / Crawler Agents): Для каждого вопроса эти агенты занимаются сбором релевантной информации из веба или локальных документов.
  4. Суммаризация и отслеживание источников: Каждый найденный ресурс обрабатывается, резюмируется, и его источник фиксируется.
  5. Фильтрация и агрегация: Отфильтрованные и обобщенные данные собираются в итоговый исследовательский отчет.

Такой конвейер, по замыслу разработчиков, должен обеспечивать более высокую скорость (за счет параллелизации работы агентов), детерминированность и надежность результатов.

Ключевые возможности и фичи

GPT Researcher обещает довольно внушительный список:

  • 📝 Генерация подробных отчетов: Используя как веб-источники, так и ваши локальные документы.
  • 🖼️ Умный скрейпинг изображений: С фильтрацией для включения в отчеты.
  • 📜 Отчеты более 2000 слов: Преодолевая ограничения LLM.
  • 🌐 Агрегация более 20 источников: Для формирования объективных выводов.
  • 🖥️ Фронтенд: Доступны как легковесная версия (HTML/CSS/JS), так и более "взрослая" на NextJS + Tailwind.
  • 🔍 JavaScript-enabled веб-скрейпинг: Для работы с динамическими сайтами.
  • 🧠 Память и контекст: Поддерживает контекст на протяжении всего исследования.
  • 📄 Экспорт отчетов: В форматы PDF, Word и другие.

🌳 Deep Research – Копаем Глубже!

Особого внимания заслуживает функция Deep Research. Это продвинутый рекурсивный рабочий процесс, который исследует темы "с агентской глубиной и широтой".

  • Древовидное исследование: С настраиваемой глубиной и шириной погружения в подтемы.
  • Параллельная обработка: Для ускорения процесса (обещают ~5 минут на "глубокое" исследование).
  • Умное управление контекстом: Между различными ветвями исследования.

📄 Исследование на локальных документах

Вы можете "скормить" агенту свои собственные документы. Поддерживаются форматы: PDF, TXT, CSV, Excel, Markdown, PowerPoint, Word. Достаточно указать путь к папке с документами через переменную окружения DOC_PATH.

🤖 MCP Server и мульти-агентная система

  • MCP (Multi-Context Prompting) Server: Переехал в отдельный репозиторий (gptr-mcp) и позволяет другим AI-приложениям (например, Claude) использовать возможности глубокого исследования GPT Researcher.
  • Мульти-агентный ассистент: Построенный с использованием LangGraph (вдохновленный работой STORM). Целая команда AI-агентов (от планировщика до публикатора) работает над созданием 5-6 страничного отчета.

Основная ставка GPT Researcher – на структурированный, многоэтапный подход к сбору и анализу информации, что должно снизить количество "галлюцинаций" и повысить качество итогового отчета по сравнению с простым запросом к LLM.

Как начать?

  1. Установите Python 3.11+.
  2. Клонируйте репозиторий:git clone https://github.com/assafelovic/gpt-researcher.git
  3. Настройте API ключи: OPENAI_API_KEY и TAVILY_API_KEY (для поиска). Можно через переменные окружения или в файле .env.
  4. Установите зависимости и запустите сервер:
pip install -r requirements.txt 
python -m uvicorn main:app --reload.

Приложение будет доступно на http://localhost:8000.

Также можно установить как PIP пакет (pip install gpt-researcher) или запустить через Docker. Подробности – в документации.