Aperçu

L’évaluation des capacités de recherche des Grands Modèles de Langage (LLM) nécessite une évaluation sophistiquée de la synthèse d’informations complexes, du raisonnement logique et de l’ancrage factuel. Le Falcon: Deep Research Benchmark & Evaluation Framework répond à ce défi en fournissant un système d’évaluation automatisé et structuré pour les réponses des LLM à des prompts de recherche sophistiqués.


Philosophie de Conception

Principes Fondamentaux

  • Modularité: Les composants du système sont séparés pour une meilleure maintenabilité et extensibilité
  • Automatisation: Minimise l’effort manuel grâce à des flux de travail scriptables et répétables
  • Transparence: Des critères d’évaluation explicites et des scores bruts sauvegardés permettent une analyse détaillée
  • Objectivité: Agrège plusieurs évaluations de juges pour réduire les biais individuels
  • Standardisation: Des prompts et formats cohérents assurent des évaluations comparables
  • Configuration: Paramètres gérés via des variables d’environnement pour plus de flexibilité
  • Pragmatisme: Utilise les API et bibliothèques disponibles pour une implémentation efficace

Composants du Framework

Accès au Code Source

Le code source complet de Falcon est disponible à :


Prompts et Réponses de Recherche

Sélection de Prompts

Nous avons sélectionné 10 questions de recherche complexes et exclusives dans divers domaines :

  • Questions de recherche académique
  • Tâches d’analyse au niveau de l’industrie
  • Collecte de renseignements de sources ouvertes
  • Analyse d’informations et de nouvelles récentes

Exemples de prompts

  1. Analyse de contenu de créateurs: “Modélisez l’entonnoir de conversion complet généré par le contenu des créateurs ayant le plus d’engagement cette semaine sur TikTok et Instagram, spécifiquement pour les whiteclaws et les seltzers alcoolisés. Établissez une corrélation entre les pics d’engagement et les augmentations de ventes attribuables en ligne et en magasin, identifiez les niveaux de créateurs, les formats de contenu et les cadences de publication qui offrent le meilleur ROI incrémental.”

  2. Prévision du comportement des consommateurs: “En utilisant les données recueillies à partir des actualités récentes, prévoyez les comportements des consommateurs concernant le café de Dunkin et le café en général pour le mois à venir.”


Cadre d’évaluation

Critères subjectifs

  1. Exactitude logique

    • Évalue la cohérence interne
    • Évalue la clarté du raisonnement
  2. Exhaustivité

    • Mesure le caractère complet
    • Évalue la profondeur par rapport aux exigences
  3. Taux d’hallucination

    • Des scores plus élevés indiquent des taux d’hallucination plus faibles
    • Validé par des retours avec intervention humaine
  4. Exactitude factuelle

    • Vérifie les affirmations à l’aide de recherches sur Internet
    • Processus de notation itératif
  5. Qualité des sources

    • Évalue la crédibilité des sources
    • Évalue la pertinence des informations

Critères objectifs

  1. Temps de réponse

    • Mesure le temps de génération complet
  2. Nombre de tokens

    • Mesure la longueur de la réponse
    • N’impacte pas directement l’évaluation globale

Juges LLM

Modèles sélectionnés

Trois LLM de pointe servent de juges :

  • Claude 3.7 Sonnet
  • GPT-4.1
  • Gemini 2.5 Pro

Intégration de recherche

  • API de recherche Web Exa AI pour Claude 3.7 Sonnet
  • Capacités de recherche intégrées pour GPT-4.1 et Gemini

Méthodologie de notation

Approche de calcul

  • Combine des scores bruts quantitatifs
  • Regroupement qualitatif en notations de 1 à 5
  • Modèle hybride utilisant des scores Z et des scores absolus
  • Méthodes de calcul spécifiques à chaque catégorie
  • Moyennes pondérées de plusieurs juges

Principales conclusions

Performance des modèles

  • Aucun modèle ne domine dans tous les critères
  • OpenAI et Gemini sont en tête pour la recherche complète
  • xAI Grok 3 excelle dans le ratio vitesse-profondeur
  • Compromis entre qualité et temps de réponse

Considérations de coût

La tarification par abonnement varie considérablement :

  • OpenAI: $20-200/month
  • Anthropic: $100-200/month
  • Gemini: $20/month
  • Perplexity: Free-$20/month
  • xAI: $30/month
  • Manus AI : 2 à 10 $ par tâche

Améliorations futures

Limitations actuelles

  • Difficulté avec les prompts ambigus
  • Défis avec les données privées/limitées
  • Capacités de recherche limitées

Améliorations prévues

  1. Couverture élargie

    • Prompts et réponses supplémentaires
    • Aspects d’évaluation plus diversifiés
  2. Évaluation améliorée

    • Intégration de juges LLM plus récents
    • Outils de recherche web avancés
  3. Intégration de l’utilisation du navigateur

    • Traitement automatisé des prompts
    • Vérification des citations
    • Validation des pages web

Conclusion

Le cadre Falcon fournit un système d’évaluation robuste et automatisé pour évaluer les capacités de recherche des LLM. Son approche multi-juges et ses critères complets permettent une évaluation objective des modèles open-source et propriétaires, soutenant les tâches de recherche au niveau de l’entreprise et les flux de travail d’analyse avancés.