Context window comparison
Context Window Benchmarks
Models | |||||
---|---|---|---|---|---|
Llama 4 Scout | 32,000,000 | 900 t/s | 0.33s | ||
Llama 4 Maverick | 32,000,000 | 900 t/s | 0.44s | ||
Gemini 3 Pro | 128,000 | n/a | n/a | 800 t/s | 0.72s |
Qwen 3 [Beta] | n/a | n/a | n/a | n/a | n/a |
Gemini 2.0 Pro | 1,000,000 | 800 t/s | 0.50s | ||
Claude 3.7 Sonnet | 200,000 | 750 t/s | 0.55s | ||
GPT-4.5 | 128,000 | 450 t/s | 1.20s | ||
Claude 3.7 Sonnet [P] | 200,000 | 750 t/s | 0.55s | ||
DeepSeek V3 | 128,000 | 350 t/s | 4.00s | ||
OpenAI o1-mini | 200,000 | 250 t/s | 14.00s | ||
OpenAI o1 | 128,000 | 200 t/s | 12.64s | ||
OpenAI o1-mini-2 | 750,000 | n/a | n/a | n/a | n/a |
DeepSeek V3 G324 | 128,000 | 350 t/s | 4.00s | ||
Qwen o1 | 200,000 | 900 t/s | 20.00s | ||
Gemini 2.0 Flash | 128,000 | 500 t/s | 0.32s | ||
Llama 3.1 70b | 128,000 | 500 t/s | 0.72s | ||
Nous Pro | 300,000 | 500 t/s | 0.64s | ||
Claude 3.5 Haiku | 200,000 | 850 t/s | 0.35s | ||
Llama 3.1 405b | 128,000 | 350 t/s | 0.72s | ||
GPT-4o-mini | 128,000 | 450 t/s | 0.50s | ||
GPT-4o | 128,000 | 450 t/s | 0.50s | ||
Claude 3.5 Sonnet | 200,000 | 750 t/s | 1.20s |
Model Details
Llama 4 Series (Meta)
Memimpin industri dengan jendela konteks token yang sangat besar 32M, kedua varian Scout dan Maverick menawarkan kemampuan pemrosesan konteks yang tak tertandingi. Meskipun biaya lebih tinggi (-/M token), mereka mempertahankan kecepatan yang sangat baik (900 t/s) dengan latensi minimal (0.33-0.44s), menjadikannya ideal untuk pemrosesan dokumen skala besar dan analisis kompleks.
Gemini Series (Google)
Kontras yang mencolok antar versi: Gemini 3 Pro menawarkan konteks standar 128K tetapi dengan kecepatan yang lebih baik (800 t/s), sementara Gemini 2.0 Pro memiliki jendela konteks token 1M yang mengesankan dengan harga yang kompetitif (/M input). Keduanya mempertahankan kecepatan pemrosesan yang sangat baik dengan latensi rendah, cocok untuk aplikasi perusahaan.
Claude Series (Anthropic)
Keluarga Claude menunjukkan performa yang konsisten dengan jendela konteks 200K. Claude 3.7 Sonnet dan varian [P]-nya menawarkan nilai yang sangat baik (/M input, /M output) dengan kecepatan yang kuat (750 t/s). Versi 3.5 mempertahankan kemampuan serupa dengan sedikit variasi dalam latensi.
OpenAI Series
Jajaran yang beragam dengan kemampuan bervariasi: model o1 berkisar dari jendela konteks 128K hingga 750K, dengan o1 dasar menawarkan nilai yang baik (/M input, /M output). Varian mini menunjukkan trade-off yang berbeda antara kecepatan dan latensi, sementara model GPT-4 berfokus pada performa yang konsisten.
DeepSeek V3 Series
Menyediakan jendela konteks 128K dengan harga yang sangat kompetitif (/M input, /M output). Meskipun kecepatan pemrosesan (350 t/s) dan latensi (4s) sedang, efektivitas biayanya membuatnya cocok untuk aplikasi yang memperhatikan anggaran.
Specialized Models
- Qwen Series: Menawarkan konteks 200K dengan harga menengah tetapi kecepatan yang mengesankan (900 t/s)
- Nous Pro: Memiliki jendela konteks yang lebih besar 300K dengan harga terjangkau (/M input, /M output)
- Llama 3.1 Series: Menyediakan konteks 128K yang konsisten dengan harga ekonomis dan performa yang andal