Research overview

Обзор

Оценка исследовательских возможностей больших языковых моделей (LLM) требует сложной оценки синтеза комплексной информации, логического мышления и фактической обоснованности. Falcon: Deep Research Benchmark & Evaluation Framework решает эту задачу, предоставляя автоматизированную, структурированную систему оценки ответов LLM на сложные исследовательские запросы.

Философия дизайна

Основные принципы

Модульность: Компоненты системы разделены для улучшения поддерживаемости и расширяемости
Автоматизация: Минимизирует ручные усилия через скриптуемые и повторяемые рабочие процессы
Прозрачность: Явные критерии оценки и сохраненные исходные оценки обеспечивают детальный анализ
Объективность: Агрегирует оценки нескольких судей для уменьшения индивидуальной предвзятости
Стандартизация: Последовательные промпты и форматы обеспечивают сопоставимые оценки
Конфигурация: Настройки управляются через переменные окружения для гибкости
Прагматизм: Использует доступные API и библиотеки для эффективной реализации

Компоненты фреймворка

Доступ к исходному коду

Полный исходный код Falcon доступен по адресу:

GitHub Repository: https://github.com/chima-org/falcon
Detailed Design Documentation: report.md

Исследовательские промпты и ответы

Выбор промптов

Мы подготовили 10 собственных сложных исследовательских вопросов в различных областях:

Вопросы академических исследований
Задачи отраслевого анализа
Сбор информации из открытых источников
Анализ последних новостей и информации

Примеры запросов

Анализ контента создателей: “Смоделируйте полную воронку конверсии, созданную контентом создателей с наивысшим уровнем вовлеченности на TikTok и Instagram на этой неделе, конкретно для whiteclaws и крепких зельтеров. Соотнесите всплески вовлеченности с приписываемым ростом продаж онлайн и в магазинах, определите уровни создателей, форматы контента и частоту публикаций, которые обеспечивают наибольший дополнительный ROI.”
Прогноз потребительского поведения: “Используя данные из последних новостей, спрогнозируйте потребительское поведение в отношении кофе Dunkin и кофе в целом на предстоящий месяц.”

Структура оценки

Субъективные критерии

Логическая корректность
- Оценивает внутреннюю согласованность
- Оценивает ясность рассуждений
Тщательность
- Измеряет полноту
- Оценивает глубину относительно требований
Уровень галлюцинаций
- Более высокие оценки указывают на более низкий уровень галлюцинаций
- Проверено с помощью обратной связи с участием человека
Фактическая точность
- Проверяет утверждения с помощью интернет-поиска
- Итеративный процесс оценки
Качество источников
- Оценивает достоверность источников
- Оценивает релевантность информации

Объективные критерии

Время отклика
- Измеряет время завершения генерации
Количество токенов
- Измеряет длину ответа
- Не влияет напрямую на общую оценку

LLM-судьи

Выбранные модели

Три передовые LLM выступают в качестве судей:

Claude 3.7 Sonnet
GPT-4.1
Gemini 2.5 Pro

Интеграция поиска

Exa AI Web Search API для Claude 3.7 Sonnet
Встроенные возможности поиска для GPT-4.1 и Gemini

Методология оценки

Подход к расчету

Объединяет количественные необработанные оценки
Качественное распределение по категориям с оценками от 1 до 5
Гибридная модель с использованием Z-оценок и абсолютных оценок
Методы вычисления для конкретных категорий
Взвешенные средние от нескольких судей

Ключевые выводы

Производительность моделей

Ни одна модель не доминирует по всем критериям
OpenAI и Gemini лидируют в комплексных исследованиях
xAI Grok 3 превосходит по соотношению скорости и глубины
Компромиссы между качеством и временем отклика

Соображения по стоимости

Ценообразование на основе подписки значительно варьируется:

OpenAI: $20-200/month
Anthropic: $100-200/month
Gemini: $20/month
Perplexity: Free-$20/month
xAI: $30/month
Manus AI: $2-10 за задачу

Будущие улучшения

Текущие ограничения

Трудности с неоднозначными запросами
Проблемы с частными/ограниченными данными
Ограниченные возможности поиска

Планируемые улучшения

Расширенный охват
- Дополнительные запросы и ответы
- Более разнообразные аспекты оценки
Улучшенная оценка
- Интеграция новых LLM-судей
- Продвинутые инструменты веб-поиска
Интеграция использования браузера
- Автоматизированная обработка запросов
- Проверка цитирования
- Валидация веб-страниц

Заключение

Фреймворк Falcon предоставляет надежную, автоматизированную систему оценки для анализа исследовательских возможностей LLM. Его подход с несколькими судьями и всесторонние критерии позволяют объективно оценивать как открытые, так и проприетарные модели, поддерживая исследовательские задачи корпоративного уровня и продвинутые рабочие процессы анализа.

Общие сведения

Введение

Prompt Engineering

Примеры тем

Уровни обучения

Исследования

Research overview

Обзор

Философия дизайна

Основные принципы

Компоненты фреймворка

Доступ к исходному коду

Исследовательские промпты и ответы

Выбор промптов

Примеры запросов

Структура оценки

Субъективные критерии

Объективные критерии

LLM-судьи

Выбранные модели

Интеграция поиска

Методология оценки

Подход к расчету

Ключевые выводы

Производительность моделей

Соображения по стоимости

Будущие улучшения

Текущие ограничения

Планируемые улучшения

Заключение

Общие сведения

Введение

Prompt Engineering

Примеры тем

Уровни обучения

Исследования

​Обзор

​Философия дизайна

​Основные принципы

​Компоненты фреймворка

​Доступ к исходному коду

​Исследовательские промпты и ответы

​Выбор промптов

​Примеры запросов

​Структура оценки

​Субъективные критерии

​Объективные критерии

​LLM-судьи

​Выбранные модели

​Интеграция поиска

​Методология оценки

​Подход к расчету

​Ключевые выводы

​Производительность моделей

​Соображения по стоимости

​Будущие улучшения

​Текущие ограничения

​Планируемые улучшения

​Заключение

Обзор

Философия дизайна

Основные принципы

Компоненты фреймворка

Доступ к исходному коду

Исследовательские промпты и ответы

Выбор промптов

Примеры запросов

Структура оценки

Субъективные критерии

Объективные критерии

LLM-судьи

Выбранные модели

Интеграция поиска

Методология оценки

Подход к расчету

Ключевые выводы

Производительность моделей

Соображения по стоимости

Будущие улучшения

Текущие ограничения

Планируемые улучшения

Заключение