Research overview
Aperçu
L’évaluation des capacités de recherche des Grands Modèles de Langage (LLM) nécessite une évaluation sophistiquée de la synthèse d’informations complexes, du raisonnement logique et de l’ancrage factuel. Le Falcon: Deep Research Benchmark & Evaluation Framework répond à ce défi en fournissant un système d’évaluation automatisé et structuré pour les réponses des LLM à des prompts de recherche sophistiqués.
Philosophie de Conception
Principes Fondamentaux
- Modularité: Les composants du système sont séparés pour une meilleure maintenabilité et extensibilité
- Automatisation: Minimise l’effort manuel grâce à des flux de travail scriptables et répétables
- Transparence: Des critères d’évaluation explicites et des scores bruts sauvegardés permettent une analyse détaillée
- Objectivité: Agrège plusieurs évaluations de juges pour réduire les biais individuels
- Standardisation: Des prompts et formats cohérents assurent des évaluations comparables
- Configuration: Paramètres gérés via des variables d’environnement pour plus de flexibilité
- Pragmatisme: Utilise les API et bibliothèques disponibles pour une implémentation efficace
Composants du Framework
Accès au Code Source
Le code source complet de Falcon est disponible à :
- Dépôt GitHub : https://github.com/chima-org/falcon
- Documentation détaillée de conception : report.md
Prompts et Réponses de Recherche
Sélection de Prompts
Nous avons sélectionné 10 questions de recherche complexes et exclusives dans divers domaines :
- Questions de recherche académique
- Tâches d’analyse au niveau de l’industrie
- Collecte de renseignements de sources ouvertes
- Analyse d’informations et de nouvelles récentes
Exemples de prompts
-
Analyse de contenu de créateurs: “Modélisez l’entonnoir de conversion complet généré par le contenu des créateurs ayant le plus d’engagement cette semaine sur TikTok et Instagram, spécifiquement pour les whiteclaws et les seltzers alcoolisés. Établissez une corrélation entre les pics d’engagement et les augmentations de ventes attribuables en ligne et en magasin, identifiez les niveaux de créateurs, les formats de contenu et les cadences de publication qui offrent le meilleur ROI incrémental.”
-
Prévision du comportement des consommateurs: “En utilisant les données recueillies à partir des actualités récentes, prévoyez les comportements des consommateurs concernant le café de Dunkin et le café en général pour le mois à venir.”
Cadre d’évaluation
Critères subjectifs
-
Exactitude logique
- Évalue la cohérence interne
- Évalue la clarté du raisonnement
-
Exhaustivité
- Mesure le caractère complet
- Évalue la profondeur par rapport aux exigences
-
Taux d’hallucination
- Des scores plus élevés indiquent des taux d’hallucination plus faibles
- Validé par des retours avec intervention humaine
-
Exactitude factuelle
- Vérifie les affirmations à l’aide de recherches sur Internet
- Processus de notation itératif
-
Qualité des sources
- Évalue la crédibilité des sources
- Évalue la pertinence des informations
Critères objectifs
-
Temps de réponse
- Mesure le temps de génération complet
-
Nombre de tokens
- Mesure la longueur de la réponse
- N’impacte pas directement l’évaluation globale
Juges LLM
Modèles sélectionnés
Trois LLM de pointe servent de juges :
- Claude 3.7 Sonnet
- GPT-4.1
- Gemini 2.5 Pro
Intégration de recherche
- API de recherche Web Exa AI pour Claude 3.7 Sonnet
- Capacités de recherche intégrées pour GPT-4.1 et Gemini
Méthodologie de notation
Approche de calcul
- Combine des scores bruts quantitatifs
- Regroupement qualitatif en notations de 1 à 5
- Modèle hybride utilisant des scores Z et des scores absolus
- Méthodes de calcul spécifiques à chaque catégorie
- Moyennes pondérées de plusieurs juges
Principales conclusions
Performance des modèles
- Aucun modèle ne domine dans tous les critères
- OpenAI et Gemini sont en tête pour la recherche complète
- xAI Grok 3 excelle dans le ratio vitesse-profondeur
- Compromis entre qualité et temps de réponse
Considérations de coût
La tarification par abonnement varie considérablement :
- OpenAI: $20-200/month
- Anthropic: $100-200/month
- Gemini: $20/month
- Perplexity: Free-$20/month
- xAI: $30/month
- Manus AI : 2 à 10 $ par tâche
Améliorations futures
Limitations actuelles
- Difficulté avec les prompts ambigus
- Défis avec les données privées/limitées
- Capacités de recherche limitées
Améliorations prévues
-
Couverture élargie
- Prompts et réponses supplémentaires
- Aspects d’évaluation plus diversifiés
-
Évaluation améliorée
- Intégration de juges LLM plus récents
- Outils de recherche web avancés
-
Intégration de l’utilisation du navigateur
- Traitement automatisé des prompts
- Vérification des citations
- Validation des pages web
Conclusion
Le cadre Falcon fournit un système d’évaluation robuste et automatisé pour évaluer les capacités de recherche des LLM. Son approche multi-juges et ses critères complets permettent une évaluation objective des modèles open-source et propriétaires, soutenant les tâches de recherche au niveau de l’entreprise et les flux de travail d’analyse avancés.