Context window comparison
Context Window Benchmarks
Models | |||||
---|---|---|---|---|---|
Llama 4 Scout | 32.000.000 | 900 t/s | 0,33s | ||
Llama 4 Maverick | 32.000.000 | 900 t/s | 0,44s | ||
Gemini 3 Pro | 128.000 | n/a | n/a | 800 t/s | 0,72s |
Qwen 3 [Beta] | n/a | n/a | n/a | n/a | n/a |
Gemini 2.0 Pro | 1.000.000 | 800 t/s | 0,50s | ||
Claude 3.7 Sonnet | 200.000 | 750 t/s | 0,55s | ||
GPT-4.5 | 128.000 | 450 t/s | 1,20s | ||
Claude 3.7 Sonnet [P] | 200.000 | 750 t/s | 0,55s | ||
DeepSeek V3 | 128.000 | 350 t/s | 4,00s | ||
OpenAI o1-mini | 200.000 | 250 t/s | 14,00s | ||
OpenAI o1 | 128.000 | 200 t/s | 12,64s | ||
OpenAI o1-mini-2 | 750.000 | n/a | n/a | n/a | n/a |
DeepSeek V3 G324 | 128.000 | 350 t/s | 4,00s | ||
Qwen o1 | 200.000 | 900 t/s | 20,00s | ||
Gemini 2.0 Flash | 128.000 | 500 t/s | 0,32s | ||
Llama 3.1 70b | 128.000 | 500 t/s | 0,72s | ||
Nous Pro | 300.000 | 500 t/s | 0,64s | ||
Claude 3.5 Haiku | 200.000 | 850 t/s | 0,35s | ||
Llama 3.1 405b | 128.000 | 350 t/s | 0,72s | ||
GPT-4o-mini | 128.000 | 450 t/s | 0,50s | ||
GPT-4o | 128.000 | 450 t/s | 0,50s | ||
Claude 3.5 Sonnet | 200.000 | 750 t/s | 1,20s |
Model Details
Llama 4 Series (Meta)
Führend in der Branche mit massiven 32M Token Kontextfenstern bieten sowohl Scout- als auch Maverick-Varianten unübertroffene Kontextverarbeitungsfähigkeiten. Trotz höherer Kosten (-/M Tokens) behalten sie ausgezeichnete Geschwindigkeit (900 t/s) mit minimaler Latenz (0,33-0,44s) bei, was sie ideal für großangelegte Dokumentenverarbeitung und komplexe Analysen macht.
Gemini Series (Google)
Bemerkenswerter Kontrast zwischen Versionen: Gemini 3 Pro bietet standardmäßig 128K Kontext, aber mit verbesserter Geschwindigkeit (800 t/s), während Gemini 2.0 Pro ein beeindruckendes 1M Token Kontextfenster mit wettbewerbsfähiger Preisgestaltung (/M Eingabe) bietet. Beide behalten ausgezeichnete Verarbeitungsgeschwindigkeiten mit niedriger Latenz bei, geeignet für Unternehmensanwendungen.
Claude Series (Anthropic)
Die Claude-Familie zeigt konsistente Leistung mit 200K Kontextfenstern. Das 3.7 Sonnet und seine [P]-Variante bieten ausgezeichneten Wert (/M Eingabe, /M Ausgabe) mit starker Geschwindigkeit (750 t/s). Die 3.5-Versionen behalten ähnliche Fähigkeiten mit leichten Variationen in der Latenz bei.
OpenAI Series
Vielfältige Aufstellung mit unterschiedlichen Fähigkeiten: o1-Modelle reichen von 128K bis 750K Kontextfenstern, wobei das Basis-o1 guten Wert bietet (/M Eingabe, /M Ausgabe). Die Mini-Varianten zeigen verschiedene Kompromisse zwischen Geschwindigkeit und Latenz, während GPT-4-Modelle sich auf konsistente Leistung konzentrieren.
DeepSeek V3 Series
Bietet ein 128K Kontextfenster mit hochgradig wettbewerbsfähiger Preisgestaltung (/M Eingabe, /M Ausgabe). Während die Verarbeitungsgeschwindigkeit (350 t/s) und Latenz (4s) moderat sind, macht die Kosteneffizienz es geeignet für kostenbewusste Anwendungen.
Specialized Models
- Qwen Series: Bietet 200K Kontext mit mittlerer Preisgestaltung, aber beeindruckender Geschwindigkeit (900 t/s)
- Nous Pro: Verfügt über ein größeres 300K Kontextfenster mit erschwinglicher Preisgestaltung (/M Eingabe, /M Ausgabe)
- Llama 3.1 Series: Bietet konsistenten 128K Kontext mit wirtschaftlicher Preisgestaltung und zuverlässiger Leistung