Context window comparison
Benchmarks de fenêtre contextuelle
Modèles | |||||
---|---|---|---|---|---|
Llama 4 Scout | 32 000 000 | 900 t/s | 0,33s | ||
Llama 4 Maverick | 32 000 000 | 900 t/s | 0,44s | ||
Gemini 3 Pro | 128 000 | n/a | n/a | 800 t/s | 0,72s |
Qwen 3 [Beta] | n/a | n/a | n/a | n/a | n/a |
Gemini 2.0 Pro | 1 000 000 | 800 t/s | 0,50s | ||
Claude 3.7 Sonnet | 200 000 | 750 t/s | 0,55s | ||
GPT-4.5 | 128 000 | 450 t/s | 1,20s | ||
Claude 3.7 Sonnet [P] | 200 000 | 750 t/s | 0,55s | ||
DeepSeek V3 | 128 000 | 350 t/s | 4,00s | ||
OpenAI o1-mini | 200 000 | 250 t/s | 14,00s | ||
OpenAI o1 | 128 000 | 200 t/s | 12,64s | ||
OpenAI o1-mini-2 | 750 000 | n/a | n/a | n/a | n/a |
DeepSeek V3 G324 | 128 000 | 350 t/s | 4,00s | ||
Qwen o1 | 200 000 | 900 t/s | 20,00s | ||
Gemini 2.0 Flash | 128 000 | 500 t/s | 0,32s | ||
Llama 3.1 70b | 128 000 | 500 t/s | 0,72s | ||
Nous Pro | 300 000 | 500 t/s | 0,64s | ||
Claude 3.5 Haiku | 200 000 | 850 t/s | 0,35s | ||
Llama 3.1 405b | 128 000 | 350 t/s | 0,72s | ||
GPT-4o-mini | 128 000 | 450 t/s | 0,50s | ||
GPT-4o | 128 000 | 450 t/s | 0,50s | ||
Claude 3.5 Sonnet | 200 000 | 750 t/s | 1,20s |
Détails des modèles
Série Llama 4 (Meta)
À la pointe de l’industrie avec des fenêtres contextuelles massives de 32M tokens, les variantes Scout et Maverick offrent des capacités de traitement contextuel inégalées. Malgré des coûts plus élevés (-/M tokens), ils maintiennent une excellente vitesse (900 t/s) avec une latence minimale (0,33-0,44s), ce qui les rend idéaux pour le traitement de documents à grande échelle et les analyses complexes.
Série Gemini (Google)
Contraste notable entre les versions : Gemini 3 Pro offre un contexte standard de 128K mais avec une vitesse améliorée (800 t/s), tandis que Gemini 2.0 Pro dispose d’une impressionnante fenêtre contextuelle de 1M tokens avec un prix compétitif (/M entrée). Les deux maintiennent d’excellentes vitesses de traitement avec une faible latence, adaptées aux applications d’entreprise.
Série Claude (Anthropic)
La famille Claude montre des performances constantes avec des fenêtres contextuelles de 200K. Le 3.7 Sonnet et sa variante [P] offrent une excellente valeur (/M entrée, /M sortie) avec une vitesse élevée (750 t/s). Les versions 3.5 maintiennent des capacités similaires avec de légères variations de latence.
Série OpenAI
Gamme diverse avec des capacités variées : les modèles o1 vont de 128K à 750K fenêtres contextuelles, avec le o1 de base offrant un bon rapport qualité-prix (/M entrée, /M sortie). Les variantes mini présentent différents compromis entre vitesse et latence, tandis que les modèles GPT-4 se concentrent sur des performances constantes.
Série DeepSeek V3
Fournit une fenêtre contextuelle de 128K avec des prix très compétitifs (/M entrée, /M sortie). Bien que la vitesse de traitement (350 t/s) et la latence (4s) soient modérées, le rapport coût-efficacité le rend adapté aux applications soucieuses du budget.
Modèles spécialisés
- Série Qwen : Offre un contexte de 200K avec des prix moyens mais une vitesse impressionnante (900 t/s)
- Nous Pro : Dispose d’une fenêtre contextuelle plus large de 300K avec des prix abordables (/M entrée, /M sortie)
- Llama 3.1 Series : Fournit un contexte constant de 128K avec des prix économiques et des performances fiables