Context window comparison

Benchmarks de fenêtre contextuelle

Modèles
Llama 4 Scout	32 000 000	900 t/s	0,33s
Llama 4 Maverick	32 000 000	900 t/s	0,44s
Gemini 3 Pro	128 000	n/a	n/a	800 t/s	0,72s
Qwen 3 [Beta]	n/a	n/a	n/a	n/a	n/a
Gemini 2.0 Pro	1 000 000	800 t/s	0,50s
Claude 3.7 Sonnet	200 000	750 t/s	0,55s
GPT-4.5	128 000	450 t/s	1,20s
Claude 3.7 Sonnet [P]	200 000	750 t/s	0,55s
DeepSeek V3	128 000	350 t/s	4,00s
OpenAI o1-mini	200 000	250 t/s	14,00s
OpenAI o1	128 000	200 t/s	12,64s
OpenAI o1-mini-2	750 000	n/a	n/a	n/a	n/a
DeepSeek V3 G324	128 000	350 t/s	4,00s
Qwen o1	200 000	900 t/s	20,00s
Gemini 2.0 Flash	128 000	500 t/s	0,32s
Llama 3.1 70b	128 000	500 t/s	0,72s
Nous Pro	300 000	500 t/s	0,64s
Claude 3.5 Haiku	200 000	850 t/s	0,35s
Llama 3.1 405b	128 000	350 t/s	0,72s
GPT-4o-mini	128 000	450 t/s	0,50s
GPT-4o	128 000	450 t/s	0,50s
Claude 3.5 Sonnet	200 000	750 t/s	1,20s

Détails des modèles

Série Llama 4 (Meta)

À la pointe de l’industrie avec des fenêtres contextuelles massives de 32M tokens, les variantes Scout et Maverick offrent des capacités de traitement contextuel inégalées. Malgré des coûts plus élevés (-/M tokens), ils maintiennent une excellente vitesse (900 t/s) avec une latence minimale (0,33-0,44s), ce qui les rend idéaux pour le traitement de documents à grande échelle et les analyses complexes.

Série Gemini (Google)

Contraste notable entre les versions : Gemini 3 Pro offre un contexte standard de 128K mais avec une vitesse améliorée (800 t/s), tandis que Gemini 2.0 Pro dispose d’une impressionnante fenêtre contextuelle de 1M tokens avec un prix compétitif (/M entrée). Les deux maintiennent d’excellentes vitesses de traitement avec une faible latence, adaptées aux applications d’entreprise.

Série Claude (Anthropic)

La famille Claude montre des performances constantes avec des fenêtres contextuelles de 200K. Le 3.7 Sonnet et sa variante [P] offrent une excellente valeur (/M entrée, /M sortie) avec une vitesse élevée (750 t/s). Les versions 3.5 maintiennent des capacités similaires avec de légères variations de latence.

Série OpenAI

Gamme diverse avec des capacités variées : les modèles o1 vont de 128K à 750K fenêtres contextuelles, avec le o1 de base offrant un bon rapport qualité-prix (/M entrée, /M sortie). Les variantes mini présentent différents compromis entre vitesse et latence, tandis que les modèles GPT-4 se concentrent sur des performances constantes.

Série DeepSeek V3

Fournit une fenêtre contextuelle de 128K avec des prix très compétitifs (/M entrée, /M sortie). Bien que la vitesse de traitement (350 t/s) et la latence (4s) soient modérées, le rapport coût-efficacité le rend adapté aux applications soucieuses du budget.

Modèles spécialisés

Série Qwen : Offre un contexte de 200K avec des prix moyens mais une vitesse impressionnante (900 t/s)
Nous Pro : Dispose d’une fenêtre contextuelle plus large de 300K avec des prix abordables (/M entrée, /M sortie)
Llama 3.1 Series : Fournit un contexte constant de 128K avec des prix économiques et des performances fiables

Général

Introduction

Ingénierie de Prompt

Exemples de Sujets

Niveaux d'Apprentissage

Recherche

Context window comparison

Benchmarks de fenêtre contextuelle

Détails des modèles

Série Llama 4 (Meta)

Série Gemini (Google)

Série Claude (Anthropic)

Série OpenAI

Série DeepSeek V3

Modèles spécialisés

Général

Introduction

Ingénierie de Prompt

Exemples de Sujets

Niveaux d'Apprentissage

Recherche

​Benchmarks de fenêtre contextuelle

​Détails des modèles

​Série Llama 4 (Meta)

​Série Gemini (Google)

​Série Claude (Anthropic)

​Série OpenAI

​Série DeepSeek V3

​Modèles spécialisés

Benchmarks de fenêtre contextuelle

Détails des modèles

Série Llama 4 (Meta)

Série Gemini (Google)

Série Claude (Anthropic)

Série OpenAI

Série DeepSeek V3

Modèles spécialisés