Panoramica

Valutare le capacità di ricerca dei Modelli Linguistici di Grandi Dimensioni (LLM) richiede una valutazione sofisticata della sintesi di informazioni complesse, del ragionamento logico e della fondatezza fattuale. Il Falcon: Deep Research Benchmark & Evaluation Framework affronta questa sfida fornendo un sistema di valutazione automatizzato e strutturato per le risposte LLM a prompt di ricerca sofisticati.

Filosofia di Design

Principi Fondamentali

  • Modularità: I componenti del sistema sono separati per una migliore manutenibilità ed estensibilità
  • Automazione: Riduce al minimo lo sforzo manuale attraverso flussi di lavoro programmabili e ripetibili
  • Trasparenza: Criteri di valutazione espliciti e punteggi grezzi salvati consentono un’analisi dettagliata
  • Obiettività: Aggrega valutazioni di più giudici per ridurre il bias individuale
  • Standardizzazione: Prompt e formati coerenti garantiscono valutazioni comparabili
  • Configurazione: Impostazioni gestite tramite variabili d’ambiente per flessibilità
  • Pragmatismo: Utilizza API e librerie disponibili per un’implementazione efficiente

Componenti del Framework

Accesso al Codice Sorgente

Il codice sorgente completo di Falcon è disponibile su:

Prompt di Ricerca e Risposte

Selezione dei Prompt

Abbiamo curato 10 domande di ricerca complesse proprietarie in vari domini:
  • Domande di ricerca accademica
  • Compiti di analisi a livello industriale
  • Raccolta di intelligence da fonti aperte
  • Analisi di informazioni e notizie recenti

Esempi di Prompt

  1. Analisi dei Contenuti dei Creator: “Modella il funnel di conversione completo generato dai contenuti dei creator con il maggior engagement di questa settimana su TikTok e Instagram specificamente per whiteclaws e hard seltzers. Correla i picchi di engagement agli aumenti di vendite attribuibili online e nei negozi fisici, identifica i livelli dei creator, i formati di contenuto e le cadenze di pubblicazione che offrono il maggior ROI incrementale.”
  2. Previsione del Comportamento dei Consumatori: “Utilizzando i dati raccolti dalle notizie recenti, prevedi i comportamenti dei consumatori riguardo al caffè di Dunkin e al caffè in generale per il prossimo mese.”

Framework di Valutazione

Criteri Soggettivi

  1. Correttezza Logica
    • Valuta la coerenza interna
    • Valuta la chiarezza del ragionamento
  2. Completezza
    • Misura l’esaustività
    • Valuta la profondità rispetto ai requisiti
  3. Tasso di Allucinazione
    • Punteggi più alti indicano tassi di allucinazione più bassi
    • Validato attraverso feedback con l’uomo nel ciclo
  4. Accuratezza Fattuale
    • Verifica le affermazioni utilizzando la ricerca su internet
    • Processo di punteggio iterativo
  5. Qualità delle Fonti
    • Valuta la credibilità delle fonti
    • Valuta la rilevanza delle informazioni

Criteri Oggettivi

  1. Tempo di Risposta
    • Misura il tempo di completamento della generazione
  2. Conteggio dei Token
    • Misura la lunghezza della risposta
    • Non influisce direttamente sulla valutazione complessiva

Giudici LLM

Modelli Selezionati

Tre LLM all’avanguardia fungono da giudici:
  • Claude 3.7 Sonnet
  • GPT-4.1
  • Gemini 2.5 Pro

Integrazione della Ricerca

  • API di Ricerca Web Exa AI per Claude 3.7 Sonnet
  • Capacità di ricerca integrate per GPT-4.1 e Gemini

Metodologia di Punteggio

Approccio di Calcolo

  • Combina punteggi grezzi quantitativi
  • Raggruppamento qualitativo in valutazioni da 1 a 5
  • Modello ibrido che utilizza Z-score e punteggi assoluti
  • Metodi di calcolo specifici per categoria
  • Medie ponderate da più giudici

Risultati Chiave

Prestazioni dei Modelli

  • Nessun modello singolo domina in tutti i criteri
  • OpenAI e Gemini sono in testa nella ricerca completa
  • xAI Grok 3 eccelle nel rapporto velocità-profondità
  • Compromessi tra qualità e tempo di risposta

Considerazioni sui Costi

I prezzi basati su abbonamento variano significativamente:
  • OpenAI: $20-200/month
  • Anthropic: $100-200/month
  • Gemini: $20/month
  • Perplexity: Free-$20/month
  • xAI: $30/month
  • Manus AI: $2-10 per attività

Miglioramenti Futuri

Limitazioni Attuali

  • Difficoltà con prompt ambigui
  • Sfide con dati privati/limitati
  • Capacità di ricerca limitate

Miglioramenti Pianificati

  1. Copertura Ampliata
    • Prompt e risposte aggiuntivi
    • Aspetti di valutazione più diversificati
  2. Valutazione Migliorata
    • Integrazione di giudici LLM più recenti
    • Strumenti di ricerca web avanzati
  3. Integrazione dell’Uso del Browser
    • Elaborazione automatizzata dei prompt
    • Verifica delle citazioni
    • Validazione delle pagine web

Conclusione

Il framework Falcon fornisce un sistema di valutazione robusto e automatizzato per valutare le capacità di ricerca degli LLM. Il suo approccio multi-giudice e i criteri completi consentono una valutazione oggettiva sia dei modelli open-source che di quelli proprietari, supportando attività di ricerca a livello aziendale e flussi di lavoro di analisi avanzata.