Research overview
Обзор
Оценка исследовательских возможностей больших языковых моделей (LLM) требует сложной оценки синтеза комплексной информации, логического мышления и фактической обоснованности. Falcon: Deep Research Benchmark & Evaluation Framework решает эту задачу, предоставляя автоматизированную, структурированную систему оценки ответов LLM на сложные исследовательские запросы.
Философия дизайна
Основные принципы
- Модульность: Компоненты системы разделены для улучшения поддерживаемости и расширяемости
- Автоматизация: Минимизирует ручные усилия через скриптуемые и повторяемые рабочие процессы
- Прозрачность: Явные критерии оценки и сохраненные исходные оценки обеспечивают детальный анализ
- Объективность: Агрегирует оценки нескольких судей для уменьшения индивидуальной предвзятости
- Стандартизация: Последовательные промпты и форматы обеспечивают сопоставимые оценки
- Конфигурация: Настройки управляются через переменные окружения для гибкости
- Прагматизм: Использует доступные API и библиотеки для эффективной реализации
Компоненты фреймворка
Доступ к исходному коду
Полный исходный код Falcon доступен по адресу:
- GitHub Repository: https://github.com/chima-org/falcon
- Detailed Design Documentation: report.md
Исследовательские промпты и ответы
Выбор промптов
Мы подготовили 10 собственных сложных исследовательских вопросов в различных областях:
- Вопросы академических исследований
- Задачи отраслевого анализа
- Сбор информации из открытых источников
- Анализ последних новостей и информации
Примеры запросов
-
Анализ контента создателей: “Смоделируйте полную воронку конверсии, созданную контентом создателей с наивысшим уровнем вовлеченности на TikTok и Instagram на этой неделе, конкретно для whiteclaws и крепких зельтеров. Соотнесите всплески вовлеченности с приписываемым ростом продаж онлайн и в магазинах, определите уровни создателей, форматы контента и частоту публикаций, которые обеспечивают наибольший дополнительный ROI.”
-
Прогноз потребительского поведения: “Используя данные из последних новостей, спрогнозируйте потребительское поведение в отношении кофе Dunkin и кофе в целом на предстоящий месяц.”
Структура оценки
Субъективные критерии
-
Логическая корректность
- Оценивает внутреннюю согласованность
- Оценивает ясность рассуждений
-
Тщательность
- Измеряет полноту
- Оценивает глубину относительно требований
-
Уровень галлюцинаций
- Более высокие оценки указывают на более низкий уровень галлюцинаций
- Проверено с помощью обратной связи с участием человека
-
Фактическая точность
- Проверяет утверждения с помощью интернет-поиска
- Итеративный процесс оценки
-
Качество источников
- Оценивает достоверность источников
- Оценивает релевантность информации
Объективные критерии
-
Время отклика
- Измеряет время завершения генерации
-
Количество токенов
- Измеряет длину ответа
- Не влияет напрямую на общую оценку
LLM-судьи
Выбранные модели
Три передовые LLM выступают в качестве судей:
- Claude 3.7 Sonnet
- GPT-4.1
- Gemini 2.5 Pro
Интеграция поиска
- Exa AI Web Search API для Claude 3.7 Sonnet
- Встроенные возможности поиска для GPT-4.1 и Gemini
Методология оценки
Подход к расчету
- Объединяет количественные необработанные оценки
- Качественное распределение по категориям с оценками от 1 до 5
- Гибридная модель с использованием Z-оценок и абсолютных оценок
- Методы вычисления для конкретных категорий
- Взвешенные средние от нескольких судей
Ключевые выводы
Производительность моделей
- Ни одна модель не доминирует по всем критериям
- OpenAI и Gemini лидируют в комплексных исследованиях
- xAI Grok 3 превосходит по соотношению скорости и глубины
- Компромиссы между качеством и временем отклика
Соображения по стоимости
Ценообразование на основе подписки значительно варьируется:
- OpenAI: $20-200/month
- Anthropic: $100-200/month
- Gemini: $20/month
- Perplexity: Free-$20/month
- xAI: $30/month
- Manus AI: $2-10 за задачу
Будущие улучшения
Текущие ограничения
- Трудности с неоднозначными запросами
- Проблемы с частными/ограниченными данными
- Ограниченные возможности поиска
Планируемые улучшения
-
Расширенный охват
- Дополнительные запросы и ответы
- Более разнообразные аспекты оценки
-
Улучшенная оценка
- Интеграция новых LLM-судей
- Продвинутые инструменты веб-поиска
-
Интеграция использования браузера
- Автоматизированная обработка запросов
- Проверка цитирования
- Валидация веб-страниц
Заключение
Фреймворк Falcon предоставляет надежную, автоматизированную систему оценки для анализа исследовательских возможностей LLM. Его подход с несколькими судьями и всесторонние критерии позволяют объективно оценивать как открытые, так и проприетарные модели, поддерживая исследовательские задачи корпоративного уровня и продвинутые рабочие процессы анализа.