Research overview

Visión General

Evaluar las capacidades de investigación de los Modelos de Lenguaje Grande (LLMs) requiere una evaluación sofisticada de la síntesis de información compleja, el razonamiento lógico y la fundamentación factual. El Falcon: Deep Research Benchmark & Evaluation Framework aborda este desafío proporcionando un sistema de evaluación automatizado y estructurado para las respuestas de LLM a prompts de investigación sofisticados.

Filosofía de Diseño

Principios Fundamentales

Modularidad: Los componentes del sistema están separados para mejorar la mantenibilidad y extensibilidad
Automatización: Minimiza el esfuerzo manual a través de flujos de trabajo programables y repetibles
Transparencia: Criterios de evaluación explícitos y puntuaciones brutas guardadas permiten un análisis detallado
Objetividad: Agrega múltiples evaluaciones de jueces para reducir el sesgo individual
Estandarización: Prompts y formatos consistentes aseguran evaluaciones comparables
Configuración: Ajustes gestionados a través de variables de entorno para flexibilidad
Pragmatismo: Utiliza APIs y bibliotecas disponibles para una implementación eficiente

Componentes del Framework

Acceso al Código Fuente

El código fuente completo de Falcon está disponible en:

Repositorio GitHub: https://github.com/chima-org/falcon
Documentación Detallada de Diseño: report.md

Prompts y Respuestas de Investigación

Selección de Prompts

Seleccionamos 10 preguntas de investigación complejas y propietarias en diversos dominios:

Preguntas de investigación académica
Tareas de análisis a nivel industrial
Recopilación de inteligencia de fuentes abiertas
Análisis de información y noticias recientes

Ejemplos de Prompts

Análisis de Contenido de Creadores: “Modela el embudo de conversión completo generado por el contenido de creadores con mayor engagement de esta semana en TikTok e Instagram específicamente para whiteclaws y hard seltzers. Correlaciona los picos de engagement con aumentos de ventas atribuibles en línea y en tiendas, identifica los niveles de creadores, formatos de contenido y cadencias de publicación que ofrecen el mayor ROI incremental.”
Pronóstico de Comportamiento del Consumidor: “Utilizando datos recopilados de noticias recientes, pronostica los comportamientos de los consumidores con respecto al café de Dunkin y al café en general para el próximo mes.”

Marco de Evaluación

Criterios Subjetivos

Corrección Lógica
- Evalúa la consistencia interna
- Evalúa la claridad del razonamiento
Minuciosidad
- Mide la integridad
- Evalúa la profundidad en relación con los requisitos
Tasa de Alucinación
- Puntuaciones más altas indican tasas de alucinación más bajas
- Validado a través de retroalimentación con humano en el ciclo
Precisión Factual
- Verifica afirmaciones mediante búsqueda en internet
- Proceso de puntuación iterativo
Calidad de las Fuentes
- Evalúa la credibilidad de las fuentes
- Evalúa la relevancia de la información

Criterios Objetivos

Tiempo de Respuesta
- Mide el tiempo de finalización de la generación
Recuento de Tokens
- Mide la longitud de la respuesta
- No impacta directamente en la calificación general

Jueces LLM

Modelos Seleccionados

Tres LLMs de vanguardia sirven como jueces:

Claude 3.7 Sonnet
GPT-4.1
Gemini 2.5 Pro

Integración de Búsqueda

API de Búsqueda Web Exa AI para Claude 3.7 Sonnet
Capacidades de búsqueda integradas para GPT-4.1 y Gemini

Metodología de Puntuación

Enfoque de Cálculo

Combina puntuaciones brutas cuantitativas
Agrupación cualitativa en calificaciones de 1-5
Modelo híbrido utilizando puntuaciones Z y puntuaciones absolutas
Métodos de cálculo específicos por categoría
Promedios ponderados de múltiples jueces

Hallazgos Clave

Rendimiento del Modelo

Ningún modelo domina en todos los criterios
OpenAI y Gemini lideran en investigación integral
xAI Grok 3 sobresale en la relación velocidad-profundidad
Compensaciones entre calidad y tiempo de respuesta

Consideraciones de Costo

Los precios basados en suscripción varían significativamente:

OpenAI: $20-200/month
Anthropic: $100-200/month
Gemini: $20/month
Perplexity: Free-$20/month
xAI: $30/month
Manus AI: $2-10 por tarea

Mejoras Futuras

Limitaciones Actuales

Dificultad con prompts ambiguos
Desafíos con datos privados/limitados
Capacidades de búsqueda limitadas

Mejoras Planificadas

Cobertura Ampliada
- Prompts y respuestas adicionales
- Aspectos de evaluación más diversos
Evaluación Mejorada
- Integración de jueces LLM más nuevos
- Herramientas avanzadas de búsqueda web
Integración de Uso del Navegador
- Procesamiento automatizado de prompts
- Verificación de citas
- Validación de páginas web

Conclusión

El marco Falcon proporciona un sistema de evaluación robusto y automatizado para evaluar las capacidades de investigación de LLM. Su enfoque de múltiples jueces y criterios integrales permite una evaluación objetiva de modelos tanto de código abierto como propietarios, apoyando tareas de investigación a nivel empresarial y flujos de trabajo de análisis avanzados.

General

Introducción

Ingeniería de Prompts

Temas de Ejemplo

Niveles de Aprendizaje

Investigación

Research overview

Visión General

Filosofía de Diseño

Principios Fundamentales

Componentes del Framework

Acceso al Código Fuente

Prompts y Respuestas de Investigación

Selección de Prompts

Ejemplos de Prompts

Marco de Evaluación

Criterios Subjetivos

Criterios Objetivos

Jueces LLM

Modelos Seleccionados

Integración de Búsqueda

Metodología de Puntuación

Enfoque de Cálculo

Hallazgos Clave

Rendimiento del Modelo

Consideraciones de Costo

Mejoras Futuras

Limitaciones Actuales

Mejoras Planificadas

Conclusión

General

Introducción

Ingeniería de Prompts

Temas de Ejemplo

Niveles de Aprendizaje

Investigación

​Visión General

​Filosofía de Diseño

​Principios Fundamentales

​Componentes del Framework

​Acceso al Código Fuente

​Prompts y Respuestas de Investigación

​Selección de Prompts

​Ejemplos de Prompts

​Marco de Evaluación

​Criterios Subjetivos

​Criterios Objetivos

​Jueces LLM

​Modelos Seleccionados

​Integración de Búsqueda

​Metodología de Puntuación

​Enfoque de Cálculo

​Hallazgos Clave

​Rendimiento del Modelo

​Consideraciones de Costo

​Mejoras Futuras

​Limitaciones Actuales

​Mejoras Planificadas

​Conclusión

Visión General

Filosofía de Diseño

Principios Fundamentales

Componentes del Framework

Acceso al Código Fuente

Prompts y Respuestas de Investigación

Selección de Prompts

Ejemplos de Prompts

Marco de Evaluación

Criterios Subjetivos

Criterios Objetivos

Jueces LLM

Modelos Seleccionados

Integración de Búsqueda

Metodología de Puntuación

Enfoque de Cálculo

Hallazgos Clave

Rendimiento del Modelo

Consideraciones de Costo

Mejoras Futuras

Limitaciones Actuales

Mejoras Planificadas

Conclusión