Context Window Benchmarks

Models
Llama 4 Scout32,000,000900 t/s0.33s
Llama 4 Maverick32,000,000900 t/s0.44s
Gemini 3 Pro128,000n/an/a800 t/s0.72s
Qwen 3 [Beta]n/an/an/an/an/a
Gemini 2.0 Pro1,000,000800 t/s0.50s
Claude 3.7 Sonnet200,000750 t/s0.55s
GPT-4.5128,000450 t/s1.20s
Claude 3.7 Sonnet [P]200,000750 t/s0.55s
DeepSeek V3128,000350 t/s4.00s
OpenAI o1-mini200,000250 t/s14.00s
OpenAI o1128,000200 t/s12.64s
OpenAI o1-mini-2750,000n/an/an/an/a
DeepSeek V3 G324128,000350 t/s4.00s
Qwen o1200,000900 t/s20.00s
Gemini 2.0 Flash128,000500 t/s0.32s
Llama 3.1 70b128,000500 t/s0.72s
Nous Pro300,000500 t/s0.64s
Claude 3.5 Haiku200,000850 t/s0.35s
Llama 3.1 405b128,000350 t/s0.72s
GPT-4o-mini128,000450 t/s0.50s
GPT-4o128,000450 t/s0.50s
Claude 3.5 Sonnet200,000750 t/s1.20s

Model Details

Llama 4 Series (Meta)

Memimpin industri dengan jendela konteks token yang sangat besar 32M, kedua varian Scout dan Maverick menawarkan kemampuan pemrosesan konteks yang tak tertandingi. Meskipun biaya lebih tinggi (-/M token), mereka mempertahankan kecepatan yang sangat baik (900 t/s) dengan latensi minimal (0.33-0.44s), menjadikannya ideal untuk pemrosesan dokumen skala besar dan analisis kompleks.

Gemini Series (Google)

Kontras yang mencolok antar versi: Gemini 3 Pro menawarkan konteks standar 128K tetapi dengan kecepatan yang lebih baik (800 t/s), sementara Gemini 2.0 Pro memiliki jendela konteks token 1M yang mengesankan dengan harga yang kompetitif (/M input). Keduanya mempertahankan kecepatan pemrosesan yang sangat baik dengan latensi rendah, cocok untuk aplikasi perusahaan.

Claude Series (Anthropic)

Keluarga Claude menunjukkan performa yang konsisten dengan jendela konteks 200K. Claude 3.7 Sonnet dan varian [P]-nya menawarkan nilai yang sangat baik (/M input, /M output) dengan kecepatan yang kuat (750 t/s). Versi 3.5 mempertahankan kemampuan serupa dengan sedikit variasi dalam latensi.

OpenAI Series

Jajaran yang beragam dengan kemampuan bervariasi: model o1 berkisar dari jendela konteks 128K hingga 750K, dengan o1 dasar menawarkan nilai yang baik (/M input, /M output). Varian mini menunjukkan trade-off yang berbeda antara kecepatan dan latensi, sementara model GPT-4 berfokus pada performa yang konsisten.

DeepSeek V3 Series

Menyediakan jendela konteks 128K dengan harga yang sangat kompetitif (/M input, /M output). Meskipun kecepatan pemrosesan (350 t/s) dan latensi (4s) sedang, efektivitas biayanya membuatnya cocok untuk aplikasi yang memperhatikan anggaran.

Specialized Models

  • Qwen Series: Menawarkan konteks 200K dengan harga menengah tetapi kecepatan yang mengesankan (900 t/s)
  • Nous Pro: Memiliki jendela konteks yang lebih besar 300K dengan harga terjangkau (/M input, /M output)
  • Llama 3.1 Series: Menyediakan konteks 128K yang konsisten dengan harga ekonomis dan performa yang andal