Model benchmarks

मॉडल बेंचमार्क्स

मॉडल्स
GPT-4o	51.4%	66.1%	31%	60.3%	72.09%	27%
Claude 3.5 Sonnet	18%	65%	49%	76%	65.46%	55.6%
Claude 3.7 Sonnet	23.3%	68%	62.3%	82.2%	68.3	60.4%
GPT-4.5	36.7%	74.1%	39%	n/a	69.94%	44.6%
DeepSeek V3 G324	58.4%	64.9%	38.6%	81%	68.05%	58.1%
Claude 3.7 Sonnet [P]	61.3%	78.2%	73.3%	86.5%	83.3%	64.9%
OpenAI o1-mini	63.6%	60%	n/a	90%	62.2%	52.8%
OpenAI o1	79.2%	79.7%	46.6%	95.4%	67.8%	67%
OpenAI o1-mini-2	87.3%	79.7%	61%	97.6%	65.12%	60.4%
Gemini 2.0 Pro	52%	84%	63.6%	n/a	n/a	72.5%
Gemini 3 (Beta)	93.3%	84.8%	n/a	n/a	n/a	n/a
Llama 4 Behemoth	n/a	73.7%	n/a	95%	n/a	n/a
Llama 4 Scout	n/a	87.2%	n/a	n/a	n/a	n/a
Llama 4 Maverick	n/a	88.8%	n/a	n/a	n/a	58.6%
Gemini 3 Pro	n/a	42.4%	52.2%	69%	n/a	4.8%
Qwen 2.5-VL-32B	n/a	46%	18.8%	82.2%	n/a	69.84%
Gemini 2.0 Flash	n/a	62.1%	51.8%	83.7%	60.42	22.2%
Llama 3.1 70b	n/a	50.5%	n/a	77%	77.5	61.45%
Nous Pro	n/a	46.8%	n/a	76.6%	68.4%	61.38%
Claude 3.5 Haiku	n/a	49.8%	40.5%	68.4%	64.31%	28%
Llama 3.1 405b	n/a	49%	n/a	73.8%	81.1%	n/a
GPT-4o-mini	n/a	40.2%	n/a	70.2%	64.1	3.6%

मॉडल विवरण

GPT-4o (OpenAI)

अकादमिक मूल्यांकन और गणितीय तर्क में उत्कृष्ट मल्टीमोडल मॉडल। तार्किक तर्क (BFCL 72.09%) में मजबूत प्रदर्शन दिखाता है लेकिन ऑटोमोटिव डोमेन कार्यों में अपेक्षाकृत कमजोर है।

Claude 3.5 Sonnet (Anthropic)

मजबूत कोडिंग क्षमताओं (SWE Bench 49%) और गणितीय प्रवीणता (MATH 500 76%) के साथ संतुलित मॉडल। पिछले संस्करणों की तुलना में बेहतर ऑटोमोटिव डोमेन समझ।

Claude 3.7 Sonnet [P] (Anthropic)

सभी बेंचमार्क में नाटकीय सुधार दिखाने वाला उन्नत संस्करण, विशेष रूप से सॉफ्टवेयर इंजीनियरिंग (SWE Bench 73.3%) और मूलभूत तर्क (BFCL 83.3%) में। संभावित स्वामित्व वाला वेरिएंट।

DeepSeek V3 G324

शीर्ष MMAE 2024 प्रदर्शन (58.4%) और उत्कृष्ट गणितीय क्षमताओं (MATH 500 81%) के साथ मजबूत ऑल-राउंडर। सभी डोमेन में लगातार प्रदर्शन बनाए रखता है।

OpenAI o1 Series

गणित में अभूतपूर्व प्रदर्शन दिखाने वाले अगली पीढ़ी के मॉडल (o1-mini-2: MATH 500 97.6%)। o1-mini-2 वेरिएंट मजबूत कोडिंग क्षमताओं को बनाए रखते हुए अकादमिक मूल्यांकन (MMAE 87.3%) में अग्रणी है।

Gemini 3 Series (Google)

बीटा संस्करण रिकॉर्ड MMAE 2024 प्रदर्शन (93.3%) दिखाता है लेकिन अपूर्ण बेंचमार्किंग। प्रो वेरिएंट मिश्रित परिणामों के साथ विभिन्न कार्यों के लिए विशेष रूप से डिज़ाइन किया गया प्रतीत होता है।

Llama 4 Series (Meta)

विशेष वेरिएंट जिसमें Maverick संस्करण GPQA (88.8%) में अग्रणी है। Behemoth मॉडल मजबूत गणितीय तर्क (MATH 500 95%) दिखाता है जबकि Scout वेरिएंट अकादमिक प्रश्नोत्तर में उत्कृष्ट है।

Qwen 2.5-VL-32B

कंप्यूटर विज़न-केंद्रित मॉडल जिसमें आश्चर्यजनक ऑटोमोटिव डोमेन प्रदर्शन (Aide Peugeot 69.84%) है। कमजोर प्रोग्रामिंग स्कोर के बावजूद अच्छी गणितीय क्षमताएं दिखाता है।

Nous Pro

सामान्य उद्देश्य वाला मॉडल जो बेंचमार्क में लगातार मध्यम-श्रेणी का प्रदर्शन करता है। समान आकार के मॉडलों की तुलना में ऑटोमोटिव अनुप्रयोगों (61.38%) में विशेष ताकत दिखाता है।

Llama 3.1 Series

बड़े पैमाने के मॉडल जो मजबूत आधारभूत तर्क क्षमताएं दिखाते हैं (405b: BFCL 81.1%)। 70b वेरिएंट कई डोमेन में संतुलित प्रदर्शन बनाए रखता है।

सामान्य

परिचय

प्रॉम्प्ट इंजीनियरिंग

नमूना विषय

सीखने के स्तर

अनुसंधान

Model benchmarks

मॉडल बेंचमार्क्स

मॉडल विवरण

GPT-4o (OpenAI)

Claude 3.5 Sonnet (Anthropic)

Claude 3.7 Sonnet [P] (Anthropic)

DeepSeek V3 G324

OpenAI o1 Series

Gemini 3 Series (Google)

Llama 4 Series (Meta)

Qwen 2.5-VL-32B

Nous Pro

Llama 3.1 Series

सामान्य

परिचय

प्रॉम्प्ट इंजीनियरिंग

नमूना विषय

सीखने के स्तर

अनुसंधान

​मॉडल बेंचमार्क्स

​मॉडल विवरण

​GPT-4o (OpenAI)

​Claude 3.5 Sonnet (Anthropic)

​Claude 3.7 Sonnet [P] (Anthropic)

​DeepSeek V3 G324

​OpenAI o1 Series

​Gemini 3 Series (Google)

​Llama 4 Series (Meta)

​Qwen 2.5-VL-32B

​Nous Pro

​Llama 3.1 Series

मॉडल बेंचमार्क्स

मॉडल विवरण

GPT-4o (OpenAI)

Claude 3.5 Sonnet (Anthropic)

Claude 3.7 Sonnet [P] (Anthropic)

DeepSeek V3 G324

OpenAI o1 Series

Gemini 3 Series (Google)

Llama 4 Series (Meta)

Qwen 2.5-VL-32B

Nous Pro

Llama 3.1 Series