Model benchmarks
मॉडल बेंचमार्क्स
मॉडल्स | ||||||
---|---|---|---|---|---|---|
GPT-4o | 51.4% | 66.1% | 31% | 60.3% | 72.09% | 27% |
Claude 3.5 Sonnet | 18% | 65% | 49% | 76% | 65.46% | 55.6% |
Claude 3.7 Sonnet | 23.3% | 68% | 62.3% | 82.2% | 68.3 | 60.4% |
GPT-4.5 | 36.7% | 74.1% | 39% | n/a | 69.94% | 44.6% |
DeepSeek V3 G324 | 58.4% | 64.9% | 38.6% | 81% | 68.05% | 58.1% |
Claude 3.7 Sonnet [P] | 61.3% | 78.2% | 73.3% | 86.5% | 83.3% | 64.9% |
OpenAI o1-mini | 63.6% | 60% | n/a | 90% | 62.2% | 52.8% |
OpenAI o1 | 79.2% | 79.7% | 46.6% | 95.4% | 67.8% | 67% |
OpenAI o1-mini-2 | 87.3% | 79.7% | 61% | 97.6% | 65.12% | 60.4% |
Gemini 2.0 Pro | 52% | 84% | 63.6% | n/a | n/a | 72.5% |
Gemini 3 (Beta) | 93.3% | 84.8% | n/a | n/a | n/a | n/a |
Llama 4 Behemoth | n/a | 73.7% | n/a | 95% | n/a | n/a |
Llama 4 Scout | n/a | 87.2% | n/a | n/a | n/a | n/a |
Llama 4 Maverick | n/a | 88.8% | n/a | n/a | n/a | 58.6% |
Gemini 3 Pro | n/a | 42.4% | 52.2% | 69% | n/a | 4.8% |
Qwen 2.5-VL-32B | n/a | 46% | 18.8% | 82.2% | n/a | 69.84% |
Gemini 2.0 Flash | n/a | 62.1% | 51.8% | 83.7% | 60.42 | 22.2% |
Llama 3.1 70b | n/a | 50.5% | n/a | 77% | 77.5 | 61.45% |
Nous Pro | n/a | 46.8% | n/a | 76.6% | 68.4% | 61.38% |
Claude 3.5 Haiku | n/a | 49.8% | 40.5% | 68.4% | 64.31% | 28% |
Llama 3.1 405b | n/a | 49% | n/a | 73.8% | 81.1% | n/a |
GPT-4o-mini | n/a | 40.2% | n/a | 70.2% | 64.1 | 3.6% |
मॉडल विवरण
GPT-4o (OpenAI)
अकादमिक मूल्यांकन और गणितीय तर्क में उत्कृष्ट मल्टीमोडल मॉडल। तार्किक तर्क (BFCL 72.09%) में मजबूत प्रदर्शन दिखाता है लेकिन ऑटोमोटिव डोमेन कार्यों में अपेक्षाकृत कमजोर है।
Claude 3.5 Sonnet (Anthropic)
मजबूत कोडिंग क्षमताओं (SWE Bench 49%) और गणितीय प्रवीणता (MATH 500 76%) के साथ संतुलित मॉडल। पिछले संस्करणों की तुलना में बेहतर ऑटोमोटिव डोमेन समझ।
Claude 3.7 Sonnet [P] (Anthropic)
सभी बेंचमार्क में नाटकीय सुधार दिखाने वाला उन्नत संस्करण, विशेष रूप से सॉफ्टवेयर इंजीनियरिंग (SWE Bench 73.3%) और मूलभूत तर्क (BFCL 83.3%) में। संभावित स्वामित्व वाला वेरिएंट।
DeepSeek V3 G324
शीर्ष MMAE 2024 प्रदर्शन (58.4%) और उत्कृष्ट गणितीय क्षमताओं (MATH 500 81%) के साथ मजबूत ऑल-राउंडर। सभी डोमेन में लगातार प्रदर्शन बनाए रखता है।
OpenAI o1 Series
गणित में अभूतपूर्व प्रदर्शन दिखाने वाले अगली पीढ़ी के मॉडल (o1-mini-2: MATH 500 97.6%)। o1-mini-2 वेरिएंट मजबूत कोडिंग क्षमताओं को बनाए रखते हुए अकादमिक मूल्यांकन (MMAE 87.3%) में अग्रणी है।
Gemini 3 Series (Google)
बीटा संस्करण रिकॉर्ड MMAE 2024 प्रदर्शन (93.3%) दिखाता है लेकिन अपूर्ण बेंचमार्किंग। प्रो वेरिएंट मिश्रित परिणामों के साथ विभिन्न कार्यों के लिए विशेष रूप से डिज़ाइन किया गया प्रतीत होता है।
Llama 4 Series (Meta)
विशेष वेरिएंट जिसमें Maverick संस्करण GPQA (88.8%) में अग्रणी है। Behemoth मॉडल मजबूत गणितीय तर्क (MATH 500 95%) दिखाता है जबकि Scout वेरिएंट अकादमिक प्रश्नोत्तर में उत्कृष्ट है।
Qwen 2.5-VL-32B
कंप्यूटर विज़न-केंद्रित मॉडल जिसमें आश्चर्यजनक ऑटोमोटिव डोमेन प्रदर्शन (Aide Peugeot 69.84%) है। कमजोर प्रोग्रामिंग स्कोर के बावजूद अच्छी गणितीय क्षमताएं दिखाता है।
Nous Pro
सामान्य उद्देश्य वाला मॉडल जो बेंचमार्क में लगातार मध्यम-श्रेणी का प्रदर्शन करता है। समान आकार के मॉडलों की तुलना में ऑटोमोटिव अनुप्रयोगों (61.38%) में विशेष ताकत दिखाता है।
Llama 3.1 Series
बड़े पैमाने के मॉडल जो मजबूत आधारभूत तर्क क्षमताएं दिखाते हैं (405b: BFCL 81.1%)। 70b वेरिएंट कई डोमेन में संतुलित प्रदर्शन बनाए रखता है।