Benchmarks de fenêtre contextuelle

Modèles
Llama 4 Scout32 000 000900 t/s0,33s
Llama 4 Maverick32 000 000900 t/s0,44s
Gemini 3 Pro128 000n/an/a800 t/s0,72s
Qwen 3 [Beta]n/an/an/an/an/a
Gemini 2.0 Pro1 000 000800 t/s0,50s
Claude 3.7 Sonnet200 000750 t/s0,55s
GPT-4.5128 000450 t/s1,20s
Claude 3.7 Sonnet [P]200 000750 t/s0,55s
DeepSeek V3128 000350 t/s4,00s
OpenAI o1-mini200 000250 t/s14,00s
OpenAI o1128 000200 t/s12,64s
OpenAI o1-mini-2750 000n/an/an/an/a
DeepSeek V3 G324128 000350 t/s4,00s
Qwen o1200 000900 t/s20,00s
Gemini 2.0 Flash128 000500 t/s0,32s
Llama 3.1 70b128 000500 t/s0,72s
Nous Pro300 000500 t/s0,64s
Claude 3.5 Haiku200 000850 t/s0,35s
Llama 3.1 405b128 000350 t/s0,72s
GPT-4o-mini128 000450 t/s0,50s
GPT-4o128 000450 t/s0,50s
Claude 3.5 Sonnet200 000750 t/s1,20s

Détails des modèles

Série Llama 4 (Meta)

À la pointe de l’industrie avec des fenêtres contextuelles massives de 32M tokens, les variantes Scout et Maverick offrent des capacités de traitement contextuel inégalées. Malgré des coûts plus élevés (-/M tokens), ils maintiennent une excellente vitesse (900 t/s) avec une latence minimale (0,33-0,44s), ce qui les rend idéaux pour le traitement de documents à grande échelle et les analyses complexes.

Série Gemini (Google)

Contraste notable entre les versions : Gemini 3 Pro offre un contexte standard de 128K mais avec une vitesse améliorée (800 t/s), tandis que Gemini 2.0 Pro dispose d’une impressionnante fenêtre contextuelle de 1M tokens avec un prix compétitif (/M entrée). Les deux maintiennent d’excellentes vitesses de traitement avec une faible latence, adaptées aux applications d’entreprise.

Série Claude (Anthropic)

La famille Claude montre des performances constantes avec des fenêtres contextuelles de 200K. Le 3.7 Sonnet et sa variante [P] offrent une excellente valeur (/M entrée, /M sortie) avec une vitesse élevée (750 t/s). Les versions 3.5 maintiennent des capacités similaires avec de légères variations de latence.

Série OpenAI

Gamme diverse avec des capacités variées : les modèles o1 vont de 128K à 750K fenêtres contextuelles, avec le o1 de base offrant un bon rapport qualité-prix (/M entrée, /M sortie). Les variantes mini présentent différents compromis entre vitesse et latence, tandis que les modèles GPT-4 se concentrent sur des performances constantes.

Série DeepSeek V3

Fournit une fenêtre contextuelle de 128K avec des prix très compétitifs (/M entrée, /M sortie). Bien que la vitesse de traitement (350 t/s) et la latence (4s) soient modérées, le rapport coût-efficacité le rend adapté aux applications soucieuses du budget.

Modèles spécialisés

  • Série Qwen : Offre un contexte de 200K avec des prix moyens mais une vitesse impressionnante (900 t/s)
  • Nous Pro : Dispose d’une fenêtre contextuelle plus large de 300K avec des prix abordables (/M entrée, /M sortie)
  • Llama 3.1 Series : Fournit un contexte constant de 128K avec des prix économiques et des performances fiables