Context window comparison

Context Window Benchmarks

Models
Llama 4 Scout	32,000,000	900 t/s	0.33s
Llama 4 Maverick	32,000,000	900 t/s	0.44s
Gemini 3 Pro	128,000	n/a	n/a	800 t/s	0.72s
Qwen 3 [Beta]	n/a	n/a	n/a	n/a	n/a
Gemini 2.0 Pro	1,000,000	800 t/s	0.50s
Claude 3.7 Sonnet	200,000	750 t/s	0.55s
GPT-4.5	128,000	450 t/s	1.20s
Claude 3.7 Sonnet [P]	200,000	750 t/s	0.55s
DeepSeek V3	128,000	350 t/s	4.00s
OpenAI o1-mini	200,000	250 t/s	14.00s
OpenAI o1	128,000	200 t/s	12.64s
OpenAI o1-mini-2	750,000	n/a	n/a	n/a	n/a
DeepSeek V3 G324	128,000	350 t/s	4.00s
Qwen o1	200,000	900 t/s	20.00s
Gemini 2.0 Flash	128,000	500 t/s	0.32s
Llama 3.1 70b	128,000	500 t/s	0.72s
Nous Pro	300,000	500 t/s	0.64s
Claude 3.5 Haiku	200,000	850 t/s	0.35s
Llama 3.1 405b	128,000	350 t/s	0.72s
GPT-4o-mini	128,000	450 t/s	0.50s
GPT-4o	128,000	450 t/s	0.50s
Claude 3.5 Sonnet	200,000	750 t/s	1.20s

Model Details

Llama 4 Series (Meta)

विशाल 32M टोकन कॉन्टेक्स्ट विंडो के साथ उद्योग में अग्रणी, Scout और Maverick दोनों वेरिएंट अद्वितीय कॉन्टेक्स्ट प्रोसेसिंग क्षमताएं प्रदान करते हैं। उच्च लागत (-/M टोकन) के बावजूद, वे उत्कृष्ट गति (900 t/s) के साथ न्यूनतम लेटेंसी (0.33-0.44s) बनाए रखते हैं, जिससे वे बड़े पैमाने पर दस्तावेज़ प्रोसेसिंग और जटिल विश्लेषण के लिए आदर्श हैं।

Gemini Series (Google)

संस्करणों के बीच उल्लेखनीय अंतर: Gemini 3 Pro मानक 128K कॉन्टेक्स्ट प्रदान करता है लेकिन बेहतर गति (800 t/s) के साथ, जबकि Gemini 2.0 Pro में प्रभावशाली 1M टोकन कॉन्टेक्स्ट विंडो है जिसमें प्रतिस्पर्धी मूल्य निर्धारण (/M इनपुट) है। दोनों कम लेटेंसी के साथ उत्कृष्ट प्रोसेसिंग गति बनाए रखते हैं, जो एंटरप्राइज अनुप्रयोगों के लिए उपयुक्त हैं।

Claude Series (Anthropic)

Claude परिवार 200K कॉन्टेक्स्ट विंडो के साथ लगातार प्रदर्शन दिखाता है। 3.7 Sonnet और इसका [P] वेरिएंट उत्कृष्ट मूल्य (/M इनपुट, /M आउटपुट) के साथ मजबूत गति (750 t/s) प्रदान करते हैं। 3.5 संस्करण लेटेंसी में थोड़े बदलाव के साथ समान क्षमताएं बनाए रखते हैं।

OpenAI Series

विविध क्षमताओं वाला विविध लाइनअप: o1 मॉडल 128K से 750K कॉन्टेक्स्ट विंडो तक हैं, जिसमें बेस o1 अच्छा मूल्य (/M इनपुट, /M आउटपुट) प्रदान करता है। मिनी वेरिएंट गति और लेटेंसी के बीच विभिन्न ट्रेड-ऑफ दिखाते हैं, जबकि GPT-4 मॉडल लगातार प्रदर्शन पर ध्यान केंद्रित करते हैं।

DeepSeek V3 Series

अत्यधिक प्रतिस्पर्धी मूल्य निर्धारण (/M इनपुट, /M आउटपुट) के साथ 128K कॉन्टेक्स्ट विंडो प्रदान करता है। प्रोसेसिंग गति (350 t/s) और लेटेंसी (4s) मध्यम होने के बावजूद, लागत-प्रभावशीलता इसे बजट-सचेत अनुप्रयोगों के लिए उपयुक्त बनाती है।

Specialized Models

Qwen Series: मध्यम मूल्य निर्धारण के साथ 200K कॉन्टेक्स्ट प्रदान करता है लेकिन प्रभावशाली गति (900 t/s) है
Nous Pro: किफायती मूल्य निर्धारण (/M इनपुट, /M आउटपुट) के साथ बड़ी 300K कॉन्टेक्स्ट विंडो प्रदान करता है
Llama 3.1 Series: किफायती मूल्य निर्धारण और विश्वसनीय प्रदर्शन के साथ लगातार 128K कॉन्टेक्स्ट प्रदान करता है

सामान्य

परिचय

प्रॉम्प्ट इंजीनियरिंग

नमूना विषय

सीखने के स्तर

अनुसंधान

Context window comparison

Context Window Benchmarks

Model Details

Llama 4 Series (Meta)

Gemini Series (Google)

Claude Series (Anthropic)

OpenAI Series

DeepSeek V3 Series

Specialized Models

सामान्य

परिचय

प्रॉम्प्ट इंजीनियरिंग

नमूना विषय

सीखने के स्तर

अनुसंधान

​Context Window Benchmarks

​Model Details

​Llama 4 Series (Meta)

​Gemini Series (Google)

​Claude Series (Anthropic)

​OpenAI Series

​DeepSeek V3 Series

​Specialized Models

Context Window Benchmarks

Model Details

Llama 4 Series (Meta)

Gemini Series (Google)

Claude Series (Anthropic)

OpenAI Series

DeepSeek V3 Series

Specialized Models