Context window comparison
Benchmark delle Finestre di Contesto
Modelli | |||||
---|---|---|---|---|---|
Llama 4 Scout | 32.000.000 | 900 t/s | 0,33s | ||
Llama 4 Maverick | 32.000.000 | 900 t/s | 0,44s | ||
Gemini 3 Pro | 128.000 | n/a | n/a | 800 t/s | 0,72s |
Qwen 3 [Beta] | n/a | n/a | n/a | n/a | n/a |
Gemini 2.0 Pro | 1.000.000 | 800 t/s | 0,50s | ||
Claude 3.7 Sonnet | 200.000 | 750 t/s | 0,55s | ||
GPT-4.5 | 128.000 | 450 t/s | 1,20s | ||
Claude 3.7 Sonnet [P] | 200.000 | 750 t/s | 0,55s | ||
DeepSeek V3 | 128.000 | 350 t/s | 4,00s | ||
OpenAI o1-mini | 200.000 | 250 t/s | 14,00s | ||
OpenAI o1 | 128.000 | 200 t/s | 12,64s | ||
OpenAI o1-mini-2 | 750.000 | n/a | n/a | n/a | n/a |
DeepSeek V3 G324 | 128.000 | 350 t/s | 4,00s | ||
Qwen o1 | 200.000 | 900 t/s | 20,00s | ||
Gemini 2.0 Flash | 128.000 | 500 t/s | 0,32s | ||
Llama 3.1 70b | 128.000 | 500 t/s | 0,72s | ||
Nous Pro | 300.000 | 500 t/s | 0,64s | ||
Claude 3.5 Haiku | 200.000 | 850 t/s | 0,35s | ||
Llama 3.1 405b | 128.000 | 350 t/s | 0,72s | ||
GPT-4o-mini | 128.000 | 450 t/s | 0,50s | ||
GPT-4o | 128.000 | 450 t/s | 0,50s | ||
Claude 3.5 Sonnet | 200.000 | 750 t/s | 1,20s |
Dettagli dei Modelli
Serie Llama 4 (Meta)
Leader del settore con enormi finestre di contesto da 32M token, entrambe le varianti Scout e Maverick offrono capacità di elaborazione del contesto senza pari. Nonostante i costi più elevati (-/M token), mantengono un’eccellente velocità (900 t/s) con latenza minima (0,33-0,44s), rendendoli ideali per l’elaborazione di documenti su larga scala e analisi complesse.
Serie Gemini (Google)
Notevole contrasto tra le versioni: Gemini 3 Pro offre un contesto standard di 128K ma con velocità migliorata (800 t/s), mentre Gemini 2.0 Pro presenta un’impressionante finestra di contesto di 1M token con prezzi competitivi (/M input). Entrambi mantengono eccellenti velocità di elaborazione con bassa latenza, adatti per applicazioni aziendali.
Serie Claude (Anthropic)
La famiglia Claude mostra prestazioni costanti con finestre di contesto da 200K. Il 3.7 Sonnet e la sua variante [P] offrono un eccellente rapporto qualità-prezzo (/M input, /M output) con ottima velocità (750 t/s). Le versioni 3.5 mantengono capacità simili con lievi variazioni nella latenza.
Serie OpenAI
Lineup diversificata con capacità variabili: i modelli o1 vanno da 128K a 750K finestre di contesto, con l’o1 base che offre un buon rapporto qualità-prezzo (/M input, /M output). Le varianti mini mostrano diversi compromessi tra velocità e latenza, mentre i modelli GPT-4 si concentrano su prestazioni costanti.
Serie DeepSeek V3
Fornisce una finestra di contesto di 128K con prezzi altamente competitivi (/M input, /M output). Mentre la velocità di elaborazione (350 t/s) e la latenza (4s) sono moderate, il rapporto costo-efficacia lo rende adatto per applicazioni con budget limitato.
Modelli Specializzati
- Serie Qwen: Offre un contesto di 200K con prezzi di fascia media ma velocità impressionante (900 t/s)
- Nous Pro: Presenta una finestra di contesto più ampia di 300K con prezzi accessibili (/M input, /M output)
- Serie Llama 3.1: Fornisce un contesto costante di 128K con prezzi economici e prestazioni affidabili