Research overview

Aperçu

L’évaluation des capacités de recherche des Grands Modèles de Langage (LLM) nécessite une évaluation sophistiquée de la synthèse d’informations complexes, du raisonnement logique et de l’ancrage factuel. Le Falcon: Deep Research Benchmark & Evaluation Framework répond à ce défi en fournissant un système d’évaluation automatisé et structuré pour les réponses des LLM à des prompts de recherche sophistiqués.

Philosophie de Conception

Principes Fondamentaux

Modularité: Les composants du système sont séparés pour une meilleure maintenabilité et extensibilité
Automatisation: Minimise l’effort manuel grâce à des flux de travail scriptables et répétables
Transparence: Des critères d’évaluation explicites et des scores bruts sauvegardés permettent une analyse détaillée
Objectivité: Agrège plusieurs évaluations de juges pour réduire les biais individuels
Standardisation: Des prompts et formats cohérents assurent des évaluations comparables
Configuration: Paramètres gérés via des variables d’environnement pour plus de flexibilité
Pragmatisme: Utilise les API et bibliothèques disponibles pour une implémentation efficace

Composants du Framework

Accès au Code Source

Le code source complet de Falcon est disponible à :

Dépôt GitHub : https://github.com/chima-org/falcon
Documentation détaillée de conception : report.md

Prompts et Réponses de Recherche

Sélection de Prompts

Nous avons sélectionné 10 questions de recherche complexes et exclusives dans divers domaines :

Questions de recherche académique
Tâches d’analyse au niveau de l’industrie
Collecte de renseignements de sources ouvertes
Analyse d’informations et de nouvelles récentes

Exemples de prompts

Analyse de contenu de créateurs: “Modélisez l’entonnoir de conversion complet généré par le contenu des créateurs ayant le plus d’engagement cette semaine sur TikTok et Instagram, spécifiquement pour les whiteclaws et les seltzers alcoolisés. Établissez une corrélation entre les pics d’engagement et les augmentations de ventes attribuables en ligne et en magasin, identifiez les niveaux de créateurs, les formats de contenu et les cadences de publication qui offrent le meilleur ROI incrémental.”
Prévision du comportement des consommateurs: “En utilisant les données recueillies à partir des actualités récentes, prévoyez les comportements des consommateurs concernant le café de Dunkin et le café en général pour le mois à venir.”

Cadre d’évaluation

Critères subjectifs

Exactitude logique
- Évalue la cohérence interne
- Évalue la clarté du raisonnement
Exhaustivité
- Mesure le caractère complet
- Évalue la profondeur par rapport aux exigences
Taux d’hallucination
- Des scores plus élevés indiquent des taux d’hallucination plus faibles
- Validé par des retours avec intervention humaine
Exactitude factuelle
- Vérifie les affirmations à l’aide de recherches sur Internet
- Processus de notation itératif
Qualité des sources
- Évalue la crédibilité des sources
- Évalue la pertinence des informations

Critères objectifs

Temps de réponse
- Mesure le temps de génération complet
Nombre de tokens
- Mesure la longueur de la réponse
- N’impacte pas directement l’évaluation globale

Juges LLM

Modèles sélectionnés

Trois LLM de pointe servent de juges :

Claude 3.7 Sonnet
GPT-4.1
Gemini 2.5 Pro

Intégration de recherche

API de recherche Web Exa AI pour Claude 3.7 Sonnet
Capacités de recherche intégrées pour GPT-4.1 et Gemini

Méthodologie de notation

Approche de calcul

Combine des scores bruts quantitatifs
Regroupement qualitatif en notations de 1 à 5
Modèle hybride utilisant des scores Z et des scores absolus
Méthodes de calcul spécifiques à chaque catégorie
Moyennes pondérées de plusieurs juges

Principales conclusions

Performance des modèles

Aucun modèle ne domine dans tous les critères
OpenAI et Gemini sont en tête pour la recherche complète
xAI Grok 3 excelle dans le ratio vitesse-profondeur
Compromis entre qualité et temps de réponse

Considérations de coût

La tarification par abonnement varie considérablement :

OpenAI: $20-200/month
Anthropic: $100-200/month
Gemini: $20/month
Perplexity: Free-$20/month
xAI: $30/month
Manus AI : 2 à 10 $ par tâche

Améliorations futures

Limitations actuelles

Difficulté avec les prompts ambigus
Défis avec les données privées/limitées
Capacités de recherche limitées

Améliorations prévues

Couverture élargie
- Prompts et réponses supplémentaires
- Aspects d’évaluation plus diversifiés
Évaluation améliorée
- Intégration de juges LLM plus récents
- Outils de recherche web avancés
Intégration de l’utilisation du navigateur
- Traitement automatisé des prompts
- Vérification des citations
- Validation des pages web

Conclusion

Le cadre Falcon fournit un système d’évaluation robuste et automatisé pour évaluer les capacités de recherche des LLM. Son approche multi-juges et ses critères complets permettent une évaluation objective des modèles open-source et propriétaires, soutenant les tâches de recherche au niveau de l’entreprise et les flux de travail d’analyse avancés.

Général

Introduction

Ingénierie de prompts

Exemples de sujets

Niveaux d'apprentissage

Recherche

Research overview

Aperçu

Philosophie de Conception

Principes Fondamentaux

Composants du Framework

Accès au Code Source

Prompts et Réponses de Recherche

Sélection de Prompts

Exemples de prompts

Cadre d’évaluation

Critères subjectifs

Critères objectifs

Juges LLM

Modèles sélectionnés

Intégration de recherche

Méthodologie de notation

Approche de calcul

Principales conclusions

Performance des modèles

Considérations de coût

Améliorations futures

Limitations actuelles

Améliorations prévues

Conclusion

Général

Introduction

Ingénierie de prompts

Exemples de sujets

Niveaux d'apprentissage

Recherche

​Aperçu

​Philosophie de Conception

​Principes Fondamentaux

​Composants du Framework

​Accès au Code Source

​Prompts et Réponses de Recherche

​Sélection de Prompts

​Exemples de prompts

​Cadre d’évaluation

​Critères subjectifs

​Critères objectifs

​Juges LLM

​Modèles sélectionnés

​Intégration de recherche

​Méthodologie de notation

​Approche de calcul

​Principales conclusions

​Performance des modèles

​Considérations de coût

​Améliorations futures

​Limitations actuelles

​Améliorations prévues

​Conclusion

Aperçu

Philosophie de Conception

Principes Fondamentaux

Composants du Framework

Accès au Code Source

Prompts et Réponses de Recherche

Sélection de Prompts

Exemples de prompts

Cadre d’évaluation

Critères subjectifs

Critères objectifs

Juges LLM

Modèles sélectionnés

Intégration de recherche

Méthodologie de notation

Approche de calcul

Principales conclusions

Performance des modèles

Considérations de coût

Améliorations futures

Limitations actuelles

Améliorations prévues

Conclusion