Research overview
Aperçu
L’évaluation des capacités de recherche des Grands Modèles de Langage (LLM) nécessite une évaluation sophistiquée de la synthèse d’informations complexes, du raisonnement logique et de l’ancrage factuel. Le Falcon : Deep Research Benchmark & Evaluation Framework répond à ce défi en fournissant un système d’évaluation automatisé et structuré pour les réponses des LLM à des prompts de recherche sophistiqués.
Philosophie de Conception
Principes Fondamentaux
- Modularité: Les composants du système sont séparés pour une meilleure maintenabilité et extensibilité
- Automatisation: Minimise l’effort manuel grâce à des flux de travail scriptables et répétables
- Transparence: Des critères d’évaluation explicites et des scores bruts sauvegardés permettent une analyse détaillée
- Objectivité: Agrège plusieurs évaluations de juges pour réduire les biais individuels
- Standardisation: Des prompts et formats cohérents assurent des évaluations comparables
- Configuration: Paramètres gérés via des variables d’environnement pour plus de flexibilité
- Pragmatisme: Utilise les API et bibliothèques disponibles pour une implémentation efficace
Composants du Framework
Accès au Code Source
Le code source complet de Falcon est disponible à :
- Dépôt GitHub : https://github.com/chima-org/falcon
- Documentation de conception détaillée : report.md
Prompts et Réponses de Recherche
Sélection de Prompt
Nous avons sélectionné 10 questions de recherche complexes et propriétaires dans divers domaines :
- Questions de recherche académique
- Tâches d’analyse au niveau industriel
- Collecte de renseignements en sources ouvertes
- Analyse d’informations et d’actualités récentes
Exemples de prompts
-
Analyse du contenu des créateurs: “Modélisez l’entonnoir de conversion complet généré par le contenu des créateurs ayant le plus d’engagement cette semaine sur TikTok et Instagram, spécifiquement pour whiteclaws et les seltzers alcoolisés. Corrélez les pics d’engagement aux augmentations de ventes attribuables en ligne et en magasin, identifiez les niveaux de créateurs, les formats de contenu et les cadences de publication qui offrent le meilleur ROI incrémental.”
-
Prévision du comportement des consommateurs: “En utilisant les données recueillies à partir des actualités récentes, prévoyez les comportements des consommateurs concernant le café de Dunkin et le café en général pour le mois à venir.”
Cadre d’évaluation
Critères subjectifs
-
Exactitude logique
- Évalue la cohérence interne
- Évalue la clarté du raisonnement
-
Exhaustivité
- Mesure la complétude
- Évalue la profondeur par rapport aux exigences
-
Taux d’hallucination
- Des scores plus élevés indiquent des taux d’hallucination plus faibles
- Validé par des retours avec humain dans la boucle
-
Exactitude factuelle
- Vérifie les affirmations à l’aide de recherches sur internet
- Processus de notation itératif
-
Qualité des sources
- Évalue la crédibilité des sources
- Évalue la pertinence des informations
Critères objectifs
-
Temps de réponse
- Mesure le temps de génération complet
-
Nombre de tokens
- Mesure la longueur de la réponse
- N’impacte pas directement la note globale
Juges LLM
Modèles sélectionnés
Trois LLM de pointe servent de juges :
- Claude 3.7 Sonnet
- GPT-4.1
- Gemini 2.5 Pro
Intégration de la recherche
- API de recherche web Exa AI pour Claude 3.7 Sonnet
- Capacités de recherche intégrées pour GPT-4.1 et Gemini
Méthodologie de notation
Approche de calcul
- Combine des scores bruts quantitatifs
- Regroupement qualitatif en notations de 1 à 5
- Modèle hybride utilisant des Z-scores et des scores absolus
- Méthodes de calcul spécifiques à chaque catégorie
- Moyennes pondérées de plusieurs juges
Principales conclusions
Performance des modèles
- Aucun modèle ne domine sur tous les critères
- OpenAI et Gemini sont en tête pour la recherche complète
- xAI Grok 3 excelle dans le ratio vitesse-profondeur
- Compromis entre qualité et temps de réponse
Considérations de coût
La tarification par abonnement varie considérablement :
- OpenAI: $20-200/month
- Anthropic: $100-200/month
- Gemini: $20/month
- Perplexity: Free-$20/month
- xAI: $30/month
- Manus AI : 2-10 $ par tâche
Améliorations futures
Limitations actuelles
- Difficulté avec les prompts ambigus
- Défis avec les données privées/limitées
- Capacités de recherche limitées
Améliorations prévues
-
Couverture élargie
- Prompts et réponses supplémentaires
- Aspects d’évaluation plus diversifiés
-
Évaluation améliorée
- Intégration de juges LLM plus récents
- Outils de recherche web avancés
-
Intégration de l’utilisation du navigateur
- Traitement automatisé des prompts
- Vérification des citations
- Validation des pages web
Conclusion
Le cadre Falcon fournit un système d’évaluation robuste et automatisé pour évaluer les capacités de recherche des LLM. Son approche multi-juges et ses critères complets permettent une évaluation objective des modèles open-source et propriétaires, soutenant les tâches de recherche au niveau entreprise et les flux de travail d’analyse avancés.