Context window comparison
Context Window Benchmarks
Models | |||||
---|---|---|---|---|---|
Llama 4 Scout | 32,000,000 | 900 t/s | 0.33s | ||
Llama 4 Maverick | 32,000,000 | 900 t/s | 0.44s | ||
Gemini 3 Pro | 128,000 | n/a | n/a | 800 t/s | 0.72s |
Qwen 3 [Beta] | n/a | n/a | n/a | n/a | n/a |
Gemini 2.0 Pro | 1,000,000 | 800 t/s | 0.50s | ||
Claude 3.7 Sonnet | 200,000 | 750 t/s | 0.55s | ||
GPT-4.5 | 128,000 | 450 t/s | 1.20s | ||
Claude 3.7 Sonnet [P] | 200,000 | 750 t/s | 0.55s | ||
DeepSeek V3 | 128,000 | 350 t/s | 4.00s | ||
OpenAI o1-mini | 200,000 | 250 t/s | 14.00s | ||
OpenAI o1 | 128,000 | 200 t/s | 12.64s | ||
OpenAI o1-mini-2 | 750,000 | n/a | n/a | n/a | n/a |
DeepSeek V3 G324 | 128,000 | 350 t/s | 4.00s | ||
Qwen o1 | 200,000 | 900 t/s | 20.00s | ||
Gemini 2.0 Flash | 128,000 | 500 t/s | 0.32s | ||
Llama 3.1 70b | 128,000 | 500 t/s | 0.72s | ||
Nous Pro | 300,000 | 500 t/s | 0.64s | ||
Claude 3.5 Haiku | 200,000 | 850 t/s | 0.35s | ||
Llama 3.1 405b | 128,000 | 350 t/s | 0.72s | ||
GPT-4o-mini | 128,000 | 450 t/s | 0.50s | ||
GPT-4o | 128,000 | 450 t/s | 0.50s | ||
Claude 3.5 Sonnet | 200,000 | 750 t/s | 1.20s |
Model Details
Llama 4 Series (Meta)
विशाल 32M टोकन कॉन्टेक्स्ट विंडो के साथ उद्योग में अग्रणी, Scout और Maverick दोनों वेरिएंट अद्वितीय कॉन्टेक्स्ट प्रोसेसिंग क्षमताएं प्रदान करते हैं। उच्च लागत (-/M टोकन) के बावजूद, वे उत्कृष्ट गति (900 t/s) के साथ न्यूनतम लेटेंसी (0.33-0.44s) बनाए रखते हैं, जिससे वे बड़े पैमाने पर दस्तावेज़ प्रोसेसिंग और जटिल विश्लेषण के लिए आदर्श हैं।
Gemini Series (Google)
संस्करणों के बीच उल्लेखनीय अंतर: Gemini 3 Pro मानक 128K कॉन्टेक्स्ट प्रदान करता है लेकिन बेहतर गति (800 t/s) के साथ, जबकि Gemini 2.0 Pro में प्रभावशाली 1M टोकन कॉन्टेक्स्ट विंडो है जिसमें प्रतिस्पर्धी मूल्य निर्धारण (/M इनपुट) है। दोनों कम लेटेंसी के साथ उत्कृष्ट प्रोसेसिंग गति बनाए रखते हैं, जो एंटरप्राइज अनुप्रयोगों के लिए उपयुक्त हैं।
Claude Series (Anthropic)
Claude परिवार 200K कॉन्टेक्स्ट विंडो के साथ लगातार प्रदर्शन दिखाता है। 3.7 Sonnet और इसका [P] वेरिएंट उत्कृष्ट मूल्य (/M इनपुट, /M आउटपुट) के साथ मजबूत गति (750 t/s) प्रदान करते हैं। 3.5 संस्करण लेटेंसी में थोड़े बदलाव के साथ समान क्षमताएं बनाए रखते हैं।
OpenAI Series
विविध क्षमताओं वाला विविध लाइनअप: o1 मॉडल 128K से 750K कॉन्टेक्स्ट विंडो तक हैं, जिसमें बेस o1 अच्छा मूल्य (/M इनपुट, /M आउटपुट) प्रदान करता है। मिनी वेरिएंट गति और लेटेंसी के बीच विभिन्न ट्रेड-ऑफ दिखाते हैं, जबकि GPT-4 मॉडल लगातार प्रदर्शन पर ध्यान केंद्रित करते हैं।
DeepSeek V3 Series
अत्यधिक प्रतिस्पर्धी मूल्य निर्धारण (/M इनपुट, /M आउटपुट) के साथ 128K कॉन्टेक्स्ट विंडो प्रदान करता है। प्रोसेसिंग गति (350 t/s) और लेटेंसी (4s) मध्यम होने के बावजूद, लागत-प्रभावशीलता इसे बजट-सचेत अनुप्रयोगों के लिए उपयुक्त बनाती है।
Specialized Models
- Qwen Series: मध्यम मूल्य निर्धारण के साथ 200K कॉन्टेक्स्ट प्रदान करता है लेकिन प्रभावशाली गति (900 t/s) है
- Nous Pro: किफायती मूल्य निर्धारण (/M इनपुट, /M आउटपुट) के साथ बड़ी 300K कॉन्टेक्स्ट विंडो प्रदान करता है
- Llama 3.1 Series: किफायती मूल्य निर्धारण और विश्वसनीय प्रदर्शन के साथ लगातार 128K कॉन्टेक्स्ट प्रदान करता है