コンテキストウィンドウベンチマーク

モデル
Llama 4 Scout32,000,000900 t/s0.33s
Llama 4 Maverick32,000,000900 t/s0.44s
Gemini 3 Pro128,000n/an/a800 t/s0.72s
Qwen 3 [Beta]n/an/an/an/an/a
Gemini 2.0 Pro1,000,000800 t/s0.50s
Claude 3.7 Sonnet200,000750 t/s0.55s
GPT-4.5128,000450 t/s1.20s
Claude 3.7 Sonnet [P]200,000750 t/s0.55s
DeepSeek V3128,000350 t/s4.00s
OpenAI o1-mini200,000250 t/s14.00s
OpenAI o1128,000200 t/s12.64s
OpenAI o1-mini-2750,000n/an/an/an/a
DeepSeek V3 G324128,000350 t/s4.00s
Qwen o1200,000900 t/s20.00s
Gemini 2.0 Flash128,000500 t/s0.32s
Llama 3.1 70b128,000500 t/s0.72s
Nous Pro300,000500 t/s0.64s
Claude 3.5 Haiku200,000850 t/s0.35s
Llama 3.1 405b128,000350 t/s0.72s
GPT-4o-mini128,000450 t/s0.50s
GPT-4o128,000450 t/s0.50s
Claude 3.5 Sonnet200,000750 t/s1.20s

モデル詳細

Llama 4 シリーズ(Meta)

巨大な32Mトークンのコンテキストウィンドウで業界をリードし、ScoutとMaverickの両バリアントは比類のないコンテキスト処理能力を提供します。コストは高め(-/Mトークン)ですが、優れた速度(900 t/s)と最小限のレイテンシ(0.33-0.44s)を維持し、大規模な文書処理や複雑な分析に最適です。

Geminiシリーズ(Google)

バージョン間の顕著な対比:Gemini 3 Proは標準的な128Kコンテキストを提供しながら速度が向上(800 t/s)し、Gemini 2.0 Proは印象的な1Mトークンのコンテキストウィンドウと競争力のある価格(/M入力)を特徴としています。どちらも低レイテンシで優れた処理速度を維持し、エンタープライズアプリケーションに適しています。

Claudeシリーズ(Anthropic)

Claudeファミリーは200Kのコンテキストウィンドウで一貫したパフォーマンスを示しています。3.7 Sonnetとその[P]バリアントは優れた価値(/M入力、/M出力)と強力な速度(750 t/s)を提供します。3.5バージョンはレイテンシにわずかな違いがありますが、同様の機能を維持しています。

OpenAIシリーズ

様々な能力を持つ多様なラインナップ:o1モデルは128Kから750Kのコンテキストウィンドウを提供し、基本o1は良い価値(/M入力、/M出力)を提供します。miniバリアントは速度とレイテンシの間で異なるトレードオフを示し、GPT-4モデルは一貫したパフォーマンスに焦点を当てています。

DeepSeek V3シリーズ

128Kのコンテキストウィンドウを非常に競争力のある価格(/M入力、/M出力)で提供します。処理速度(350 t/s)とレイテンシ(4s)は中程度ですが、コスト効率の良さから予算を重視するアプリケーションに適しています。

特化型モデル

  • Qwenシリーズ:中程度の価格で200Kのコンテキストを提供しますが、印象的な速度(900 t/s)を誇ります
  • Nous Pro:手頃な価格(/M入力、/M出力)で大きな300Kコンテキストウィンドウを特徴としています
  • Llama 3.1シリーズ:経済的な価格と信頼性の高いパフォーマンスで一貫した128Kコンテキストを提供します