Research overview
Überblick
Die Bewertung der Recherchefähigkeiten von Large Language Models (LLMs) erfordert eine anspruchsvolle Beurteilung komplexer Informationssynthese, logischen Denkens und faktischer Fundierung. Das Falcon: Deep Research Benchmark & Evaluation Framework adressiert diese Herausforderung, indem es ein automatisiertes, strukturiertes Bewertungssystem für LLM-Antworten auf anspruchsvolle Forschungsprompts bereitstellt.
Design-Philosophie
Kernprinzipien
- Modularität: Systemkomponenten sind für verbesserte Wartbarkeit und Erweiterbarkeit getrennt
- Automatisierung: Minimiert manuellen Aufwand durch skriptbare und wiederholbare Workflows
- Transparenz: Explizite Bewertungskriterien und gespeicherte Rohwerte ermöglichen detaillierte Analysen
- Objektivität: Aggregiert mehrere Beurteilungen, um individuelle Voreingenommenheit zu reduzieren
- Standardisierung: Konsistente Prompts und Formate gewährleisten vergleichbare Bewertungen
- Konfiguration: Einstellungen werden über Umgebungsvariablen für Flexibilität verwaltet
- Pragmatismus: Nutzt verfügbare APIs und Bibliotheken für effiziente Implementierung
Framework-Komponenten
Quellcode-Zugriff
Der vollständige Falcon-Quellcode ist verfügbar unter:
- GitHub Repository: https://github.com/chima-org/falcon
- Detaillierte Design-Dokumentation: report.md
Forschungsprompts & Antworten
Prompt-Auswahl
Wir haben 10 proprietäre komplexe Forschungsfragen aus verschiedenen Bereichen zusammengestellt:
- Akademische Forschungsfragen
- Analyseaufgaben auf Branchenebene
- Open-Source-Intelligence-Sammlung
- Analyse aktueller Informationen und Nachrichten
Beispiel-Prompts
-
Creator-Content-Analyse: “Modelliere den vollständigen Conversion-Funnel, der durch die Creator-Inhalte mit dem höchsten Engagement dieser Woche auf TikTok und Instagram speziell für Whiteclaws und Hard Seltzers generiert wurde. Korreliere Engagement-Spitzen mit zurechenbaren Verkaufssteigerungen online und im Geschäft, identifiziere die Creator-Stufen, Content-Formate und Posting-Frequenzen, die den größten inkrementellen ROI liefern.”
-
Verbraucherverhalten-Prognose: “Prognostiziere anhand von Daten aus aktuellen Nachrichten das Verbraucherverhalten in Bezug auf Dunkin’s Kaffee und Kaffee im Allgemeinen für den kommenden Monat.”
Evaluierungsrahmen
Subjektive Kriterien
-
Logische Korrektheit
- Bewertet interne Konsistenz
- Evaluiert Klarheit der Argumentation
-
Gründlichkeit
- Misst Vollständigkeit
- Evaluiert Tiefe im Verhältnis zu den Anforderungen
-
Halluzinationsrate
- Höhere Werte zeigen niedrigere Halluzinationsraten an
- Validiert durch Human-in-the-Loop-Feedback
-
Faktische Genauigkeit
- Überprüft Behauptungen mittels Internetsuche
- Iterativer Bewertungsprozess
-
Quellenqualität
- Bewertet Glaubwürdigkeit der Quellen
- Beurteilt Relevanz der Informationen
Objektive Kriterien
-
Antwortzeit
- Misst die Generierungsabschlusszeit
-
Token-Anzahl
- Misst die Antwortlänge
- Beeinflusst die Gesamtbewertung nicht direkt
LLM-Bewerter
Ausgewählte Modelle
Drei hochmoderne LLMs dienen als Bewerter:
- Claude 3.7 Sonnet
- GPT-4.1
- Gemini 2.5 Pro
Suchintegration
- Exa AI Web Search API für Claude 3.7 Sonnet
- Integrierte Suchfunktionen für GPT-4.1 und Gemini
Bewertungsmethodik
Berechnungsansatz
- Kombiniert quantitative Rohwerte
- Qualitative Einteilung in Bewertungen von 1-5
- Hybridmodell mit Z-Scores und absoluten Werten
- Kategoriespezifische Berechnungsmethoden
- Gewichtete Durchschnitte von mehreren Bewertern
Wichtigste Erkenntnisse
Modellleistung
- Kein einzelnes Modell dominiert über alle Kriterien hinweg
- OpenAI und Gemini führend bei umfassender Forschung
- xAI Grok 3 überzeugt im Verhältnis von Geschwindigkeit zu Tiefe
- Kompromisse zwischen Qualität und Antwortzeit
Kostenüberlegungen
Abonnementbasierte Preise variieren erheblich:
- OpenAI: $20-200/month
- Anthropic: $100-200/month
- Gemini: $20/month
- Perplexity: Free-$20/month
- xAI: $30/month
- Manus AI: $2-10 pro Aufgabe
Zukünftige Verbesserungen
Aktuelle Einschränkungen
- Schwierigkeiten mit mehrdeutigen Prompts
- Herausforderungen mit privaten/begrenzten Daten
- Begrenzte Suchfähigkeiten
Geplante Verbesserungen
-
Erweiterte Abdeckung
- Zusätzliche Prompts und Antworten
- Vielfältigere Evaluierungsaspekte
-
Verbesserte Evaluierung
- Integration neuerer LLM-Bewerter
- Fortschrittliche Websuchtools
-
Browser-Nutzungsintegration
- Automatisierte Prompt-Verarbeitung
- Zitationsüberprüfung
- Webseiten-Validierung
Fazit
Das Falcon-Framework bietet ein robustes, automatisiertes Evaluierungssystem zur Bewertung der Forschungsfähigkeiten von LLMs. Sein Multi-Bewerter-Ansatz und umfassende Kriterien ermöglichen eine objektive Bewertung sowohl von Open-Source- als auch von proprietären Modellen und unterstützen Forschungsaufgaben auf Unternehmensebene und fortschrittliche Analyse-Workflows.