Research overview
Visión General
Evaluar las capacidades de investigación de los Modelos de Lenguaje Grande (LLMs) requiere una evaluación sofisticada de la síntesis de información compleja, el razonamiento lógico y la fundamentación factual. El Falcon: Deep Research Benchmark & Evaluation Framework aborda este desafío proporcionando un sistema de evaluación automatizado y estructurado para las respuestas de LLM a prompts de investigación sofisticados.
Filosofía de Diseño
Principios Fundamentales
- Modularidad: Los componentes del sistema están separados para mejorar la mantenibilidad y extensibilidad
- Automatización: Minimiza el esfuerzo manual a través de flujos de trabajo programables y repetibles
- Transparencia: Criterios de evaluación explícitos y puntuaciones brutas guardadas permiten un análisis detallado
- Objetividad: Agrega múltiples evaluaciones de jueces para reducir el sesgo individual
- Estandarización: Prompts y formatos consistentes aseguran evaluaciones comparables
- Configuración: Ajustes gestionados a través de variables de entorno para flexibilidad
- Pragmatismo: Utiliza APIs y bibliotecas disponibles para una implementación eficiente
Componentes del Framework
Acceso al Código Fuente
El código fuente completo de Falcon está disponible en:
- Repositorio GitHub: https://github.com/chima-org/falcon
- Documentación Detallada de Diseño: report.md
Prompts y Respuestas de Investigación
Selección de Prompts
Seleccionamos 10 preguntas de investigación complejas y propietarias en diversos dominios:
- Preguntas de investigación académica
- Tareas de análisis a nivel industrial
- Recopilación de inteligencia de fuentes abiertas
- Análisis de información y noticias recientes
Ejemplos de Prompts
-
Análisis de Contenido de Creadores: “Modela el embudo de conversión completo generado por el contenido de creadores con mayor engagement de esta semana en TikTok e Instagram específicamente para whiteclaws y hard seltzers. Correlaciona los picos de engagement con aumentos de ventas atribuibles en línea y en tiendas, identifica los niveles de creadores, formatos de contenido y cadencias de publicación que ofrecen el mayor ROI incremental.”
-
Pronóstico de Comportamiento del Consumidor: “Utilizando datos recopilados de noticias recientes, pronostica los comportamientos de los consumidores con respecto al café de Dunkin y al café en general para el próximo mes.”
Marco de Evaluación
Criterios Subjetivos
-
Corrección Lógica
- Evalúa la consistencia interna
- Evalúa la claridad del razonamiento
-
Minuciosidad
- Mide la integridad
- Evalúa la profundidad en relación con los requisitos
-
Tasa de Alucinación
- Puntuaciones más altas indican tasas de alucinación más bajas
- Validado a través de retroalimentación con humano en el ciclo
-
Precisión Factual
- Verifica afirmaciones mediante búsqueda en internet
- Proceso de puntuación iterativo
-
Calidad de las Fuentes
- Evalúa la credibilidad de las fuentes
- Evalúa la relevancia de la información
Criterios Objetivos
-
Tiempo de Respuesta
- Mide el tiempo de finalización de la generación
-
Recuento de Tokens
- Mide la longitud de la respuesta
- No impacta directamente en la calificación general
Jueces LLM
Modelos Seleccionados
Tres LLMs de vanguardia sirven como jueces:
- Claude 3.7 Sonnet
- GPT-4.1
- Gemini 2.5 Pro
Integración de Búsqueda
- API de Búsqueda Web Exa AI para Claude 3.7 Sonnet
- Capacidades de búsqueda integradas para GPT-4.1 y Gemini
Metodología de Puntuación
Enfoque de Cálculo
- Combina puntuaciones brutas cuantitativas
- Agrupación cualitativa en calificaciones de 1-5
- Modelo híbrido utilizando puntuaciones Z y puntuaciones absolutas
- Métodos de cálculo específicos por categoría
- Promedios ponderados de múltiples jueces
Hallazgos Clave
Rendimiento del Modelo
- Ningún modelo domina en todos los criterios
- OpenAI y Gemini lideran en investigación integral
- xAI Grok 3 sobresale en la relación velocidad-profundidad
- Compensaciones entre calidad y tiempo de respuesta
Consideraciones de Costo
Los precios basados en suscripción varían significativamente:
- OpenAI: $20-200/month
- Anthropic: $100-200/month
- Gemini: $20/month
- Perplexity: Free-$20/month
- xAI: $30/month
- Manus AI: $2-10 por tarea
Mejoras Futuras
Limitaciones Actuales
- Dificultad con prompts ambiguos
- Desafíos con datos privados/limitados
- Capacidades de búsqueda limitadas
Mejoras Planificadas
-
Cobertura Ampliada
- Prompts y respuestas adicionales
- Aspectos de evaluación más diversos
-
Evaluación Mejorada
- Integración de jueces LLM más nuevos
- Herramientas avanzadas de búsqueda web
-
Integración de Uso del Navegador
- Procesamiento automatizado de prompts
- Verificación de citas
- Validación de páginas web
Conclusión
El marco Falcon proporciona un sistema de evaluación robusto y automatizado para evaluar las capacidades de investigación de LLM. Su enfoque de múltiples jueces y criterios integrales permite una evaluación objetiva de modelos tanto de código abierto como propietarios, apoyando tareas de investigación a nivel empresarial y flujos de trabajo de análisis avanzados.