Benchmark delle Finestre di Contesto

Modelli
Llama 4 Scout32.000.000900 t/s0,33s
Llama 4 Maverick32.000.000900 t/s0,44s
Gemini 3 Pro128.000n/an/a800 t/s0,72s
Qwen 3 [Beta]n/an/an/an/an/a
Gemini 2.0 Pro1.000.000800 t/s0,50s
Claude 3.7 Sonnet200.000750 t/s0,55s
GPT-4.5128.000450 t/s1,20s
Claude 3.7 Sonnet [P]200.000750 t/s0,55s
DeepSeek V3128.000350 t/s4,00s
OpenAI o1-mini200.000250 t/s14,00s
OpenAI o1128.000200 t/s12,64s
OpenAI o1-mini-2750.000n/an/an/an/a
DeepSeek V3 G324128.000350 t/s4,00s
Qwen o1200.000900 t/s20,00s
Gemini 2.0 Flash128.000500 t/s0,32s
Llama 3.1 70b128.000500 t/s0,72s
Nous Pro300.000500 t/s0,64s
Claude 3.5 Haiku200.000850 t/s0,35s
Llama 3.1 405b128.000350 t/s0,72s
GPT-4o-mini128.000450 t/s0,50s
GPT-4o128.000450 t/s0,50s
Claude 3.5 Sonnet200.000750 t/s1,20s

Dettagli dei Modelli

Serie Llama 4 (Meta)

Leader del settore con enormi finestre di contesto da 32M token, entrambe le varianti Scout e Maverick offrono capacità di elaborazione del contesto senza pari. Nonostante i costi più elevati (-/M token), mantengono un’eccellente velocità (900 t/s) con latenza minima (0,33-0,44s), rendendoli ideali per l’elaborazione di documenti su larga scala e analisi complesse.

Serie Gemini (Google)

Notevole contrasto tra le versioni: Gemini 3 Pro offre un contesto standard di 128K ma con velocità migliorata (800 t/s), mentre Gemini 2.0 Pro presenta un’impressionante finestra di contesto di 1M token con prezzi competitivi (/M input). Entrambi mantengono eccellenti velocità di elaborazione con bassa latenza, adatti per applicazioni aziendali.

Serie Claude (Anthropic)

La famiglia Claude mostra prestazioni costanti con finestre di contesto da 200K. Il 3.7 Sonnet e la sua variante [P] offrono un eccellente rapporto qualità-prezzo (/M input, /M output) con ottima velocità (750 t/s). Le versioni 3.5 mantengono capacità simili con lievi variazioni nella latenza.

Serie OpenAI

Lineup diversificata con capacità variabili: i modelli o1 vanno da 128K a 750K finestre di contesto, con l’o1 base che offre un buon rapporto qualità-prezzo (/M input, /M output). Le varianti mini mostrano diversi compromessi tra velocità e latenza, mentre i modelli GPT-4 si concentrano su prestazioni costanti.

Serie DeepSeek V3

Fornisce una finestra di contesto di 128K con prezzi altamente competitivi (/M input, /M output). Mentre la velocità di elaborazione (350 t/s) e la latenza (4s) sono moderate, il rapporto costo-efficacia lo rende adatto per applicazioni con budget limitato.

Modelli Specializzati

  • Serie Qwen: Offre un contesto di 200K con prezzi di fascia media ma velocità impressionante (900 t/s)
  • Nous Pro: Presenta una finestra di contesto più ampia di 300K con prezzi accessibili (/M input, /M output)
  • Serie Llama 3.1: Fornisce un contesto costante di 128K con prezzi economici e prestazioni affidabili