Context window comparison
Context Window Benchmarks
Models | |||||
---|---|---|---|---|---|
Llama 4 Scout | 32,000,000 | 900 t/s | 0.33s | ||
Llama 4 Maverick | 32,000,000 | 900 t/s | 0.44s | ||
Gemini 3 Pro | 128,000 | n/a | n/a | 800 t/s | 0.72s |
Qwen 3 [Beta] | n/a | n/a | n/a | n/a | n/a |
Gemini 2.0 Pro | 1,000,000 | 800 t/s | 0.50s | ||
Claude 3.7 Sonnet | 200,000 | 750 t/s | 0.55s | ||
GPT-4.5 | 128,000 | 450 t/s | 1.20s | ||
Claude 3.7 Sonnet [P] | 200,000 | 750 t/s | 0.55s | ||
DeepSeek V3 | 128,000 | 350 t/s | 4.00s | ||
OpenAI o1-mini | 200,000 | 250 t/s | 14.00s | ||
OpenAI o1 | 128,000 | 200 t/s | 12.64s | ||
OpenAI o1-mini-2 | 750,000 | n/a | n/a | n/a | n/a |
DeepSeek V3 G324 | 128,000 | 350 t/s | 4.00s | ||
Qwen o1 | 200,000 | 900 t/s | 20.00s | ||
Gemini 2.0 Flash | 128,000 | 500 t/s | 0.32s | ||
Llama 3.1 70b | 128,000 | 500 t/s | 0.72s | ||
Nous Pro | 300,000 | 500 t/s | 0.64s | ||
Claude 3.5 Haiku | 200,000 | 850 t/s | 0.35s | ||
Llama 3.1 405b | 128,000 | 350 t/s | 0.72s | ||
GPT-4o-mini | 128,000 | 450 t/s | 0.50s | ||
GPT-4o | 128,000 | 450 t/s | 0.50s | ||
Claude 3.5 Sonnet | 200,000 | 750 t/s | 1.20s |
Model Details
Llama 4 Series (Meta)
32M 토큰의 거대한 컨텍스트 윈도우로 업계를 선도하며, Scout와 Maverick 변형 모두 타의 추종을 불허하는 컨텍스트 처리 능력을 제공합니다. 높은 비용(-/M 토큰)에도 불구하고 우수한 속도(900 t/s)와 최소한의 지연 시간(0.33-0.44s)을 유지하여 대규모 문서 처리 및 복잡한 분석에 이상적입니다.
Gemini Series (Google)
버전 간의 주목할 만한 차이: Gemini 3 Pro는 표준 128K 컨텍스트를 제공하지만 향상된 속도(800 t/s)를 갖추고 있으며, Gemini 2.0 Pro는 인상적인 1M 토큰 컨텍스트 윈도우와 경쟁력 있는 가격(/M 입력)을 특징으로 합니다. 두 모델 모두 낮은 지연 시간으로 우수한 처리 속도를 유지하여 기업 애플리케이션에 적합합니다.
Claude Series (Anthropic)
Claude 제품군은 200K 컨텍스트 윈도우로 일관된 성능을 보여줍니다. 3.7 Sonnet과 [P] 변형은 우수한 가치(/M 입력, /M 출력)와 강력한 속도(750 t/s)를 제공합니다. 3.5 버전은 지연 시간에 약간의 차이가 있지만 유사한 기능을 유지합니다.
OpenAI Series
다양한 기능을 갖춘 다양한 라인업: o1 모델은 128K에서 750K까지의 컨텍스트 윈도우를 제공하며, 기본 o1은 좋은 가치(/M 입력, /M 출력)를 제공합니다. 미니 변형은 속도와 지연 시간 사이에 다양한 트레이드오프를 보여주는 반면, GPT-4 모델은 일관된 성능에 중점을 둡니다.
DeepSeek V3 Series
128K 컨텍스트 윈도우와 매우 경쟁력 있는 가격(/M 입력, /M 출력)을 제공합니다. 처리 속도(350 t/s)와 지연 시간(4s)은 중간 수준이지만, 비용 효율성으로 인해 예산에 민감한 애플리케이션에 적합합니다.
Specialized Models
- Qwen Series: 중간 범위 가격으로 200K 컨텍스트를 제공하지만 인상적인 속도(900 t/s)를 자랑합니다
- Nous Pro: 저렴한 가격(/M 입력, /M 출력)으로 더 큰 300K 컨텍스트 윈도우를 제공합니다
- Llama 3.1 Series: 경제적인 가격과 안정적인 성능으로 일관된 128K 컨텍스트를 제공합니다