Visión General

Evaluar las capacidades de investigación de los Modelos de Lenguaje Grande (LLMs) requiere una evaluación sofisticada de la síntesis de información compleja, el razonamiento lógico y la fundamentación factual. El Falcon: Deep Research Benchmark & Evaluation Framework aborda este desafío proporcionando un sistema de evaluación automatizado y estructurado para las respuestas de LLM a prompts de investigación sofisticados.


Filosofía de Diseño

Principios Fundamentales

  • Modularidad: Los componentes del sistema están separados para mejorar la mantenibilidad y extensibilidad
  • Automatización: Minimiza el esfuerzo manual a través de flujos de trabajo programables y repetibles
  • Transparencia: Criterios de evaluación explícitos y puntuaciones brutas guardadas permiten un análisis detallado
  • Objetividad: Agrega múltiples evaluaciones de jueces para reducir el sesgo individual
  • Estandarización: Prompts y formatos consistentes aseguran evaluaciones comparables
  • Configuración: Ajustes gestionados a través de variables de entorno para flexibilidad
  • Pragmatismo: Utiliza APIs y bibliotecas disponibles para una implementación eficiente

Componentes del Framework

Acceso al Código Fuente

El código fuente completo de Falcon está disponible en:


Prompts y Respuestas de Investigación

Selección de Prompts

Seleccionamos 10 preguntas de investigación complejas y propietarias en diversos dominios:

  • Preguntas de investigación académica
  • Tareas de análisis a nivel industrial
  • Recopilación de inteligencia de fuentes abiertas
  • Análisis de información y noticias recientes

Ejemplos de Prompts

  1. Análisis de Contenido de Creadores: “Modela el embudo de conversión completo generado por el contenido de creadores con mayor engagement de esta semana en TikTok e Instagram específicamente para whiteclaws y hard seltzers. Correlaciona los picos de engagement con aumentos de ventas atribuibles en línea y en tiendas, identifica los niveles de creadores, formatos de contenido y cadencias de publicación que ofrecen el mayor ROI incremental.”

  2. Pronóstico de Comportamiento del Consumidor: “Utilizando datos recopilados de noticias recientes, pronostica los comportamientos de los consumidores con respecto al café de Dunkin y al café en general para el próximo mes.”


Marco de Evaluación

Criterios Subjetivos

  1. Corrección Lógica

    • Evalúa la consistencia interna
    • Evalúa la claridad del razonamiento
  2. Minuciosidad

    • Mide la integridad
    • Evalúa la profundidad en relación con los requisitos
  3. Tasa de Alucinación

    • Puntuaciones más altas indican tasas de alucinación más bajas
    • Validado a través de retroalimentación con humano en el ciclo
  4. Precisión Factual

    • Verifica afirmaciones mediante búsqueda en internet
    • Proceso de puntuación iterativo
  5. Calidad de las Fuentes

    • Evalúa la credibilidad de las fuentes
    • Evalúa la relevancia de la información

Criterios Objetivos

  1. Tiempo de Respuesta

    • Mide el tiempo de finalización de la generación
  2. Recuento de Tokens

    • Mide la longitud de la respuesta
    • No impacta directamente en la calificación general

Jueces LLM

Modelos Seleccionados

Tres LLMs de vanguardia sirven como jueces:

  • Claude 3.7 Sonnet
  • GPT-4.1
  • Gemini 2.5 Pro

Integración de Búsqueda

  • API de Búsqueda Web Exa AI para Claude 3.7 Sonnet
  • Capacidades de búsqueda integradas para GPT-4.1 y Gemini

Metodología de Puntuación

Enfoque de Cálculo

  • Combina puntuaciones brutas cuantitativas
  • Agrupación cualitativa en calificaciones de 1-5
  • Modelo híbrido utilizando puntuaciones Z y puntuaciones absolutas
  • Métodos de cálculo específicos por categoría
  • Promedios ponderados de múltiples jueces

Hallazgos Clave

Rendimiento del Modelo

  • Ningún modelo domina en todos los criterios
  • OpenAI y Gemini lideran en investigación integral
  • xAI Grok 3 sobresale en la relación velocidad-profundidad
  • Compensaciones entre calidad y tiempo de respuesta

Consideraciones de Costo

Los precios basados en suscripción varían significativamente:

  • OpenAI: $20-200/month
  • Anthropic: $100-200/month
  • Gemini: $20/month
  • Perplexity: Free-$20/month
  • xAI: $30/month
  • Manus AI: $2-10 por tarea

Mejoras Futuras

Limitaciones Actuales

  • Dificultad con prompts ambiguos
  • Desafíos con datos privados/limitados
  • Capacidades de búsqueda limitadas

Mejoras Planificadas

  1. Cobertura Ampliada

    • Prompts y respuestas adicionales
    • Aspectos de evaluación más diversos
  2. Evaluación Mejorada

    • Integración de jueces LLM más nuevos
    • Herramientas avanzadas de búsqueda web
  3. Integración de Uso del Navegador

    • Procesamiento automatizado de prompts
    • Verificación de citas
    • Validación de páginas web

Conclusión

El marco Falcon proporciona un sistema de evaluación robusto y automatizado para evaluar las capacidades de investigación de LLM. Su enfoque de múltiples jueces y criterios integrales permite una evaluación objetiva de modelos tanto de código abierto como propietarios, apoyando tareas de investigación a nivel empresarial y flujos de trabajo de análisis avanzados.