Context Window Benchmarks

Models
Llama 4 Scout32.000.000900 t/s0,33s
Llama 4 Maverick32.000.000900 t/s0,44s
Gemini 3 Pro128.000n/an/a800 t/s0,72s
Qwen 3 [Beta]n/an/an/an/an/a
Gemini 2.0 Pro1.000.000800 t/s0,50s
Claude 3.7 Sonnet200.000750 t/s0,55s
GPT-4.5128.000450 t/s1,20s
Claude 3.7 Sonnet [P]200.000750 t/s0,55s
DeepSeek V3128.000350 t/s4,00s
OpenAI o1-mini200.000250 t/s14,00s
OpenAI o1128.000200 t/s12,64s
OpenAI o1-mini-2750.000n/an/an/an/a
DeepSeek V3 G324128.000350 t/s4,00s
Qwen o1200.000900 t/s20,00s
Gemini 2.0 Flash128.000500 t/s0,32s
Llama 3.1 70b128.000500 t/s0,72s
Nous Pro300.000500 t/s0,64s
Claude 3.5 Haiku200.000850 t/s0,35s
Llama 3.1 405b128.000350 t/s0,72s
GPT-4o-mini128.000450 t/s0,50s
GPT-4o128.000450 t/s0,50s
Claude 3.5 Sonnet200.000750 t/s1,20s

Model Details

Llama 4 Series (Meta)

Führend in der Branche mit massiven 32M Token Kontextfenstern bieten sowohl Scout- als auch Maverick-Varianten unübertroffene Kontextverarbeitungsfähigkeiten. Trotz höherer Kosten (-/M Tokens) behalten sie ausgezeichnete Geschwindigkeit (900 t/s) mit minimaler Latenz (0,33-0,44s) bei, was sie ideal für großangelegte Dokumentenverarbeitung und komplexe Analysen macht.

Gemini Series (Google)

Bemerkenswerter Kontrast zwischen Versionen: Gemini 3 Pro bietet standardmäßig 128K Kontext, aber mit verbesserter Geschwindigkeit (800 t/s), während Gemini 2.0 Pro ein beeindruckendes 1M Token Kontextfenster mit wettbewerbsfähiger Preisgestaltung (/M Eingabe) bietet. Beide behalten ausgezeichnete Verarbeitungsgeschwindigkeiten mit niedriger Latenz bei, geeignet für Unternehmensanwendungen.

Claude Series (Anthropic)

Die Claude-Familie zeigt konsistente Leistung mit 200K Kontextfenstern. Das 3.7 Sonnet und seine [P]-Variante bieten ausgezeichneten Wert (/M Eingabe, /M Ausgabe) mit starker Geschwindigkeit (750 t/s). Die 3.5-Versionen behalten ähnliche Fähigkeiten mit leichten Variationen in der Latenz bei.

OpenAI Series

Vielfältige Aufstellung mit unterschiedlichen Fähigkeiten: o1-Modelle reichen von 128K bis 750K Kontextfenstern, wobei das Basis-o1 guten Wert bietet (/M Eingabe, /M Ausgabe). Die Mini-Varianten zeigen verschiedene Kompromisse zwischen Geschwindigkeit und Latenz, während GPT-4-Modelle sich auf konsistente Leistung konzentrieren.

DeepSeek V3 Series

Bietet ein 128K Kontextfenster mit hochgradig wettbewerbsfähiger Preisgestaltung (/M Eingabe, /M Ausgabe). Während die Verarbeitungsgeschwindigkeit (350 t/s) und Latenz (4s) moderat sind, macht die Kosteneffizienz es geeignet für kostenbewusste Anwendungen.

Specialized Models

  • Qwen Series: Bietet 200K Kontext mit mittlerer Preisgestaltung, aber beeindruckender Geschwindigkeit (900 t/s)
  • Nous Pro: Verfügt über ein größeres 300K Kontextfenster mit erschwinglicher Preisgestaltung (/M Eingabe, /M Ausgabe)
  • Llama 3.1 Series: Bietet konsistenten 128K Kontext mit wirtschaftlicher Preisgestaltung und zuverlässiger Leistung