Обзор

Оценка исследовательских возможностей больших языковых моделей (LLM) требует сложной оценки синтеза комплексной информации, логического мышления и фактической обоснованности. Falcon: Deep Research Benchmark & Evaluation Framework решает эту задачу, предоставляя автоматизированную, структурированную систему оценки ответов LLM на сложные исследовательские запросы.


Философия дизайна

Основные принципы

  • Модульность: Компоненты системы разделены для улучшения поддерживаемости и расширяемости
  • Автоматизация: Минимизирует ручные усилия через скриптуемые и повторяемые рабочие процессы
  • Прозрачность: Явные критерии оценки и сохраненные исходные оценки обеспечивают детальный анализ
  • Объективность: Агрегирует оценки нескольких судей для уменьшения индивидуальной предвзятости
  • Стандартизация: Последовательные промпты и форматы обеспечивают сопоставимые оценки
  • Конфигурация: Настройки управляются через переменные окружения для гибкости
  • Прагматизм: Использует доступные API и библиотеки для эффективной реализации

Компоненты фреймворка

Доступ к исходному коду

Полный исходный код Falcon доступен по адресу:


Исследовательские промпты и ответы

Выбор промптов

Мы подготовили 10 собственных сложных исследовательских вопросов в различных областях:

  • Вопросы академических исследований
  • Задачи отраслевого анализа
  • Сбор информации из открытых источников
  • Анализ последних новостей и информации

Примеры запросов

  1. Анализ контента создателей: “Смоделируйте полную воронку конверсии, созданную контентом создателей с наивысшим уровнем вовлеченности на TikTok и Instagram на этой неделе, конкретно для whiteclaws и крепких зельтеров. Соотнесите всплески вовлеченности с приписываемым ростом продаж онлайн и в магазинах, определите уровни создателей, форматы контента и частоту публикаций, которые обеспечивают наибольший дополнительный ROI.”

  2. Прогноз потребительского поведения: “Используя данные из последних новостей, спрогнозируйте потребительское поведение в отношении кофе Dunkin и кофе в целом на предстоящий месяц.”


Структура оценки

Субъективные критерии

  1. Логическая корректность

    • Оценивает внутреннюю согласованность
    • Оценивает ясность рассуждений
  2. Тщательность

    • Измеряет полноту
    • Оценивает глубину относительно требований
  3. Уровень галлюцинаций

    • Более высокие оценки указывают на более низкий уровень галлюцинаций
    • Проверено с помощью обратной связи с участием человека
  4. Фактическая точность

    • Проверяет утверждения с помощью интернет-поиска
    • Итеративный процесс оценки
  5. Качество источников

    • Оценивает достоверность источников
    • Оценивает релевантность информации

Объективные критерии

  1. Время отклика

    • Измеряет время завершения генерации
  2. Количество токенов

    • Измеряет длину ответа
    • Не влияет напрямую на общую оценку

LLM-судьи

Выбранные модели

Три передовые LLM выступают в качестве судей:

  • Claude 3.7 Sonnet
  • GPT-4.1
  • Gemini 2.5 Pro

Интеграция поиска

  • Exa AI Web Search API для Claude 3.7 Sonnet
  • Встроенные возможности поиска для GPT-4.1 и Gemini

Методология оценки

Подход к расчету

  • Объединяет количественные необработанные оценки
  • Качественное распределение по категориям с оценками от 1 до 5
  • Гибридная модель с использованием Z-оценок и абсолютных оценок
  • Методы вычисления для конкретных категорий
  • Взвешенные средние от нескольких судей

Ключевые выводы

Производительность моделей

  • Ни одна модель не доминирует по всем критериям
  • OpenAI и Gemini лидируют в комплексных исследованиях
  • xAI Grok 3 превосходит по соотношению скорости и глубины
  • Компромиссы между качеством и временем отклика

Соображения по стоимости

Ценообразование на основе подписки значительно варьируется:

  • OpenAI: $20-200/month
  • Anthropic: $100-200/month
  • Gemini: $20/month
  • Perplexity: Free-$20/month
  • xAI: $30/month
  • Manus AI: $2-10 за задачу

Будущие улучшения

Текущие ограничения

  • Трудности с неоднозначными запросами
  • Проблемы с частными/ограниченными данными
  • Ограниченные возможности поиска

Планируемые улучшения

  1. Расширенный охват

    • Дополнительные запросы и ответы
    • Более разнообразные аспекты оценки
  2. Улучшенная оценка

    • Интеграция новых LLM-судей
    • Продвинутые инструменты веб-поиска
  3. Интеграция использования браузера

    • Автоматизированная обработка запросов
    • Проверка цитирования
    • Валидация веб-страниц

Заключение

Фреймворк Falcon предоставляет надежную, автоматизированную систему оценки для анализа исследовательских возможностей LLM. Его подход с несколькими судьями и всесторонние критерии позволяют объективно оценивать как открытые, так и проприетарные модели, поддерживая исследовательские задачи корпоративного уровня и продвинутые рабочие процессы анализа.