Context Window Benchmarks

Models
Llama 4 Scout32,000,000900 t/s0.33s
Llama 4 Maverick32,000,000900 t/s0.44s
Gemini 3 Pro128,000n/an/a800 t/s0.72s
Qwen 3 [Beta]n/an/an/an/an/a
Gemini 2.0 Pro1,000,000800 t/s0.50s
Claude 3.7 Sonnet200,000750 t/s0.55s
GPT-4.5128,000450 t/s1.20s
Claude 3.7 Sonnet [P]200,000750 t/s0.55s
DeepSeek V3128,000350 t/s4.00s
OpenAI o1-mini200,000250 t/s14.00s
OpenAI o1128,000200 t/s12.64s
OpenAI o1-mini-2750,000n/an/an/an/a
DeepSeek V3 G324128,000350 t/s4.00s
Qwen o1200,000900 t/s20.00s
Gemini 2.0 Flash128,000500 t/s0.32s
Llama 3.1 70b128,000500 t/s0.72s
Nous Pro300,000500 t/s0.64s
Claude 3.5 Haiku200,000850 t/s0.35s
Llama 3.1 405b128,000350 t/s0.72s
GPT-4o-mini128,000450 t/s0.50s
GPT-4o128,000450 t/s0.50s
Claude 3.5 Sonnet200,000750 t/s1.20s

Model Details

Llama 4 Series (Meta)

विशाल 32M टोकन कॉन्टेक्स्ट विंडो के साथ उद्योग में अग्रणी, Scout और Maverick दोनों वेरिएंट अद्वितीय कॉन्टेक्स्ट प्रोसेसिंग क्षमताएं प्रदान करते हैं। उच्च लागत (-/M टोकन) के बावजूद, वे उत्कृष्ट गति (900 t/s) के साथ न्यूनतम लेटेंसी (0.33-0.44s) बनाए रखते हैं, जिससे वे बड़े पैमाने पर दस्तावेज़ प्रोसेसिंग और जटिल विश्लेषण के लिए आदर्श हैं।

Gemini Series (Google)

संस्करणों के बीच उल्लेखनीय अंतर: Gemini 3 Pro मानक 128K कॉन्टेक्स्ट प्रदान करता है लेकिन बेहतर गति (800 t/s) के साथ, जबकि Gemini 2.0 Pro में प्रभावशाली 1M टोकन कॉन्टेक्स्ट विंडो है जिसमें प्रतिस्पर्धी मूल्य निर्धारण (/M इनपुट) है। दोनों कम लेटेंसी के साथ उत्कृष्ट प्रोसेसिंग गति बनाए रखते हैं, जो एंटरप्राइज अनुप्रयोगों के लिए उपयुक्त हैं।

Claude Series (Anthropic)

Claude परिवार 200K कॉन्टेक्स्ट विंडो के साथ लगातार प्रदर्शन दिखाता है। 3.7 Sonnet और इसका [P] वेरिएंट उत्कृष्ट मूल्य (/M इनपुट, /M आउटपुट) के साथ मजबूत गति (750 t/s) प्रदान करते हैं। 3.5 संस्करण लेटेंसी में थोड़े बदलाव के साथ समान क्षमताएं बनाए रखते हैं।

OpenAI Series

विविध क्षमताओं वाला विविध लाइनअप: o1 मॉडल 128K से 750K कॉन्टेक्स्ट विंडो तक हैं, जिसमें बेस o1 अच्छा मूल्य (/M इनपुट, /M आउटपुट) प्रदान करता है। मिनी वेरिएंट गति और लेटेंसी के बीच विभिन्न ट्रेड-ऑफ दिखाते हैं, जबकि GPT-4 मॉडल लगातार प्रदर्शन पर ध्यान केंद्रित करते हैं।

DeepSeek V3 Series

अत्यधिक प्रतिस्पर्धी मूल्य निर्धारण (/M इनपुट, /M आउटपुट) के साथ 128K कॉन्टेक्स्ट विंडो प्रदान करता है। प्रोसेसिंग गति (350 t/s) और लेटेंसी (4s) मध्यम होने के बावजूद, लागत-प्रभावशीलता इसे बजट-सचेत अनुप्रयोगों के लिए उपयुक्त बनाती है।

Specialized Models

  • Qwen Series: मध्यम मूल्य निर्धारण के साथ 200K कॉन्टेक्स्ट प्रदान करता है लेकिन प्रभावशाली गति (900 t/s) है
  • Nous Pro: किफायती मूल्य निर्धारण (/M इनपुट, /M आउटपुट) के साथ बड़ी 300K कॉन्टेक्स्ट विंडो प्रदान करता है
  • Llama 3.1 Series: किफायती मूल्य निर्धारण और विश्वसनीय प्रदर्शन के साथ लगातार 128K कॉन्टेक्स्ट प्रदान करता है