Benchmark delle Finestre di Contesto
| Modelli | |||||
|---|---|---|---|---|---|
| Llama 4 Scout | 32.000.000 | 900 t/s | 0,33s | ||
| Llama 4 Maverick | 32.000.000 | 900 t/s | 0,44s | ||
| Gemini 3 Pro | 128.000 | n/a | n/a | 800 t/s | 0,72s |
| Qwen 3 [Beta] | n/a | n/a | n/a | n/a | n/a |
| Gemini 2.0 Pro | 1.000.000 | 800 t/s | 0,50s | ||
| Claude 3.7 Sonnet | 200.000 | 750 t/s | 0,55s | ||
| GPT-4.5 | 128.000 | 450 t/s | 1,20s | ||
| Claude 3.7 Sonnet [P] | 200.000 | 750 t/s | 0,55s | ||
| DeepSeek V3 | 128.000 | 350 t/s | 4,00s | ||
| OpenAI o1-mini | 200.000 | 250 t/s | 14,00s | ||
| OpenAI o1 | 128.000 | 200 t/s | 12,64s | ||
| OpenAI o1-mini-2 | 750.000 | n/a | n/a | n/a | n/a |
| DeepSeek V3 G324 | 128.000 | 350 t/s | 4,00s | ||
| Qwen o1 | 200.000 | 900 t/s | 20,00s | ||
| Gemini 2.0 Flash | 128.000 | 500 t/s | 0,32s | ||
| Llama 3.1 70b | 128.000 | 500 t/s | 0,72s | ||
| Nous Pro | 300.000 | 500 t/s | 0,64s | ||
| Claude 3.5 Haiku | 200.000 | 850 t/s | 0,35s | ||
| Llama 3.1 405b | 128.000 | 350 t/s | 0,72s | ||
| GPT-4o-mini | 128.000 | 450 t/s | 0,50s | ||
| GPT-4o | 128.000 | 450 t/s | 0,50s | ||
| Claude 3.5 Sonnet | 200.000 | 750 t/s | 1,20s |
Dettagli dei Modelli
Serie Llama 4 (Meta)
Leader del settore con enormi finestre di contesto da 32M token, entrambe le varianti Scout e Maverick offrono capacità di elaborazione del contesto senza pari. Nonostante i costi più elevati (-/M token), mantengono un’eccellente velocità (900 t/s) con latenza minima (0,33-0,44s), rendendoli ideali per l’elaborazione di documenti su larga scala e analisi complesse.Serie Gemini (Google)
Notevole contrasto tra le versioni: Gemini 3 Pro offre un contesto standard di 128K ma con velocità migliorata (800 t/s), mentre Gemini 2.0 Pro presenta un’impressionante finestra di contesto di 1M token con prezzi competitivi (/M input). Entrambi mantengono eccellenti velocità di elaborazione con bassa latenza, adatti per applicazioni aziendali.Serie Claude (Anthropic)
La famiglia Claude mostra prestazioni costanti con finestre di contesto da 200K. Il 3.7 Sonnet e la sua variante [P] offrono un eccellente rapporto qualità-prezzo (/M input, /M output) con forte velocità (750 t/s). Le versioni 3.5 mantengono capacità simili con lievi variazioni nella latenza.Serie OpenAI
Lineup diversificata con capacità variabili: i modelli o1 vanno da 128K a 750K finestre di contesto, con l’o1 base che offre un buon valore (/M input, /M output). Le varianti mini mostrano diversi compromessi tra velocità e latenza, mentre i modelli GPT-4 si concentrano su prestazioni costanti.Serie DeepSeek V3
Fornisce una finestra di contesto di 128K con prezzi altamente competitivi (/M input, /M output). Mentre la velocità di elaborazione (350 t/s) e la latenza (4s) sono moderate, il rapporto costo-efficacia lo rende adatto per applicazioni attente al budget.Modelli Specializzati
- Serie Qwen: Offre un contesto di 200K con prezzi di fascia media ma velocità impressionante (900 t/s)
- Nous Pro: Presenta una finestra di contesto più ampia di 300K con prezzi accessibili (/M input, /M output)
- Serie Llama 3.1: Fornisce un contesto costante di 128K con prezzi economici e prestazioni affidabili

