Überblick

Die Bewertung der Recherchefähigkeiten von Large Language Models (LLMs) erfordert eine anspruchsvolle Beurteilung komplexer Informationssynthese, logischen Denkens und faktischer Fundierung. Das Falcon: Deep Research Benchmark & Evaluation Framework adressiert diese Herausforderung, indem es ein automatisiertes, strukturiertes Bewertungssystem für LLM-Antworten auf anspruchsvolle Forschungsprompts bereitstellt.


Design-Philosophie

Kernprinzipien

  • Modularität: Systemkomponenten sind für verbesserte Wartbarkeit und Erweiterbarkeit getrennt
  • Automatisierung: Minimiert manuellen Aufwand durch skriptbare und wiederholbare Workflows
  • Transparenz: Explizite Bewertungskriterien und gespeicherte Rohwerte ermöglichen detaillierte Analysen
  • Objektivität: Aggregiert mehrere Beurteilungen, um individuelle Voreingenommenheit zu reduzieren
  • Standardisierung: Konsistente Prompts und Formate gewährleisten vergleichbare Bewertungen
  • Konfiguration: Einstellungen werden über Umgebungsvariablen für Flexibilität verwaltet
  • Pragmatismus: Nutzt verfügbare APIs und Bibliotheken für effiziente Implementierung

Framework-Komponenten

Quellcode-Zugriff

Der vollständige Falcon-Quellcode ist verfügbar unter:


Forschungsprompts & Antworten

Prompt-Auswahl

Wir haben 10 proprietäre komplexe Forschungsfragen aus verschiedenen Bereichen zusammengestellt:

  • Akademische Forschungsfragen
  • Analyseaufgaben auf Branchenebene
  • Open-Source-Intelligence-Sammlung
  • Analyse aktueller Informationen und Nachrichten

Beispiel-Prompts

  1. Creator-Content-Analyse: “Modelliere den vollständigen Conversion-Funnel, der durch die Creator-Inhalte mit dem höchsten Engagement dieser Woche auf TikTok und Instagram speziell für Whiteclaws und Hard Seltzers generiert wurde. Korreliere Engagement-Spitzen mit zurechenbaren Verkaufssteigerungen online und im Geschäft, identifiziere die Creator-Stufen, Content-Formate und Posting-Frequenzen, die den größten inkrementellen ROI liefern.”

  2. Verbraucherverhalten-Prognose: “Prognostiziere anhand von Daten aus aktuellen Nachrichten das Verbraucherverhalten in Bezug auf Dunkin’s Kaffee und Kaffee im Allgemeinen für den kommenden Monat.”


Evaluierungsrahmen

Subjektive Kriterien

  1. Logische Korrektheit

    • Bewertet interne Konsistenz
    • Evaluiert Klarheit der Argumentation
  2. Gründlichkeit

    • Misst Vollständigkeit
    • Evaluiert Tiefe im Verhältnis zu den Anforderungen
  3. Halluzinationsrate

    • Höhere Werte zeigen niedrigere Halluzinationsraten an
    • Validiert durch Human-in-the-Loop-Feedback
  4. Faktische Genauigkeit

    • Überprüft Behauptungen mittels Internetsuche
    • Iterativer Bewertungsprozess
  5. Quellenqualität

    • Bewertet Glaubwürdigkeit der Quellen
    • Beurteilt Relevanz der Informationen

Objektive Kriterien

  1. Antwortzeit

    • Misst die Generierungsabschlusszeit
  2. Token-Anzahl

    • Misst die Antwortlänge
    • Beeinflusst die Gesamtbewertung nicht direkt

LLM-Bewerter

Ausgewählte Modelle

Drei hochmoderne LLMs dienen als Bewerter:

  • Claude 3.7 Sonnet
  • GPT-4.1
  • Gemini 2.5 Pro

Suchintegration

  • Exa AI Web Search API für Claude 3.7 Sonnet
  • Integrierte Suchfunktionen für GPT-4.1 und Gemini

Bewertungsmethodik

Berechnungsansatz

  • Kombiniert quantitative Rohwerte
  • Qualitative Einteilung in Bewertungen von 1-5
  • Hybridmodell mit Z-Scores und absoluten Werten
  • Kategoriespezifische Berechnungsmethoden
  • Gewichtete Durchschnitte von mehreren Bewertern

Wichtigste Erkenntnisse

Modellleistung

  • Kein einzelnes Modell dominiert über alle Kriterien hinweg
  • OpenAI und Gemini führend bei umfassender Forschung
  • xAI Grok 3 überzeugt im Verhältnis von Geschwindigkeit zu Tiefe
  • Kompromisse zwischen Qualität und Antwortzeit

Kostenüberlegungen

Abonnementbasierte Preise variieren erheblich:

  • OpenAI: $20-200/month
  • Anthropic: $100-200/month
  • Gemini: $20/month
  • Perplexity: Free-$20/month
  • xAI: $30/month
  • Manus AI: $2-10 pro Aufgabe

Zukünftige Verbesserungen

Aktuelle Einschränkungen

  • Schwierigkeiten mit mehrdeutigen Prompts
  • Herausforderungen mit privaten/begrenzten Daten
  • Begrenzte Suchfähigkeiten

Geplante Verbesserungen

  1. Erweiterte Abdeckung

    • Zusätzliche Prompts und Antworten
    • Vielfältigere Evaluierungsaspekte
  2. Verbesserte Evaluierung

    • Integration neuerer LLM-Bewerter
    • Fortschrittliche Websuchtools
  3. Browser-Nutzungsintegration

    • Automatisierte Prompt-Verarbeitung
    • Zitationsüberprüfung
    • Webseiten-Validierung

Fazit

Das Falcon-Framework bietet ein robustes, automatisiertes Evaluierungssystem zur Bewertung der Forschungsfähigkeiten von LLMs. Sein Multi-Bewerter-Ansatz und umfassende Kriterien ermöglichen eine objektive Bewertung sowohl von Open-Source- als auch von proprietären Modellen und unterstützen Forschungsaufgaben auf Unternehmensebene und fortschrittliche Analyse-Workflows.