Model benchmarks

Model Kıyaslamaları

Modeller
GPT-4o	51.4%	66.1%	31%	60.3%	72.09%	27%
Claude 3.5 Sonnet	18%	65%	49%	76%	65.46%	55.6%
Claude 3.7 Sonnet	23.3%	68%	62.3%	82.2%	68.3	60.4%
GPT-4.5	36.7%	74.1%	39%	n/a	69.94%	44.6%
DeepSeek V3 G324	58.4%	64.9%	38.6%	81%	68.05%	58.1%
Claude 3.7 Sonnet [P]	61.3%	78.2%	73.3%	86.5%	83.3%	64.9%
OpenAI o1-mini	63.6%	60%	n/a	90%	62.2%	52.8%
OpenAI o1	79.2%	79.7%	46.6%	95.4%	67.8%	67%
OpenAI o1-mini-2	87.3%	79.7%	61%	97.6%	65.12%	60.4%
Gemini 2.0 Pro	52%	84%	63.6%	n/a	n/a	72.5%
Gemini 3 (Beta)	93.3%	84.8%	n/a	n/a	n/a	n/a
Llama 4 Behemoth	n/a	73.7%	n/a	95%	n/a	n/a
Llama 4 Scout	n/a	87.2%	n/a	n/a	n/a	n/a
Llama 4 Maverick	n/a	88.8%	n/a	n/a	n/a	58.6%
Gemini 3 Pro	n/a	42.4%	52.2%	69%	n/a	4.8%
Qwen 2.5-VL-32B	n/a	46%	18.8%	82.2%	n/a	69.84%
Gemini 2.0 Flash	n/a	62.1%	51.8%	83.7%	60.42	22.2%
Llama 3.1 70b	n/a	50.5%	n/a	77%	77.5	61.45%
Nous Pro	n/a	46.8%	n/a	76.6%	68.4%	61.38%
Claude 3.5 Haiku	n/a	49.8%	40.5%	68.4%	64.31%	28%
Llama 3.1 405b	n/a	49%	n/a	73.8%	81.1%	n/a
GPT-4o-mini	n/a	40.2%	n/a	70.2%	64.1	3.6%

Model Detayları

GPT-4o (OpenAI)

Akademik değerlendirmelerde ve matematiksel akıl yürütmede üstün başarı gösteren çok modlu model. Mantıksal akıl yürütmede güçlü performans (BFCL %72.09) gösterirken otomotiv alanı görevlerinde nispeten daha zayıf.

Claude 3.5 Sonnet (Anthropic)

Güçlü kodlama yetenekleri (SWE Bench %49) ve matematiksel yetkinlik (MATH 500 %76) ile dengeli bir model. Önceki sürümlere kıyasla geliştirilmiş otomotiv alanı anlayışı.

Claude 3.7 Sonnet [P] (Anthropic)

Tüm kıyaslamalarda, özellikle yazılım mühendisliğinde (SWE Bench %73.3) ve temel mantıkta (BFCL %83.3) çarpıcı iyileştirmeler gösteren geliştirilmiş sürüm. Potansiyel özel varyant.

DeepSeek V3 G324

En yüksek MMAE 2024 performansı (%58.4) ve mükemmel matematiksel yetenekler (MATH 500 %81) ile güçlü bir çok yönlü model. Tüm alanlarda tutarlı performans sergiliyor.

OpenAI o1 Serisi

Matematikte çığır açan performans gösteren yeni nesil modeller (o1-mini-2: MATH 500 %97.6). o1-mini-2 varyantı, güçlü kodlama yeteneklerini korurken akademik değerlendirmelerde (MMAE %87.3) öncülük ediyor.

Gemini 3 Serisi (Google)

Beta sürümü rekor MMAE 2024 performansı (%93.3) gösteriyor ancak kıyaslama tamamlanmamış. Pro varyantı karışık sonuçlarla farklı görevler için özelleştirilmiş görünüyor.

Llama 4 Serisi (Meta)

Maverick sürümünün GPQA’da (%88.8) öncülük ettiği özelleştirilmiş varyantlar. Behemoth modeli güçlü matematiksel akıl yürütme (MATH 500 %95) gösterirken, Scout varyantı akademik sorgulamada öne çıkıyor.

Qwen 2.5-VL-32B

Bilgisayar görüşü odaklı model, otomotiv alanında şaşırtıcı performans gösteriyor (Aide Peugeot %69.84). Daha zayıf programlama puanlarına rağmen iyi matematiksel yetenekler sergiliyor.

Nous Pro

Kıyaslama testlerinde tutarlı orta seviye performans gösteren genel amaçlı model. Benzer boyuttaki modellere kıyasla özellikle otomotiv uygulamalarında (%61.38) güçlü yönler gösteriyor.

Llama 3.1 Series

Güçlü temel mantık yetenekleri gösteren büyük ölçekli modeller (405b: BFCL %81.1). 70b varyantı birden fazla alanda dengeli performans sürdürüyor.

Genel

Giriş

Prompt Mühendisliği

Örnek Konular

Öğrenme Seviyeleri

Araştırma

Model benchmarks

Model Kıyaslamaları

Model Detayları

GPT-4o (OpenAI)

Claude 3.5 Sonnet (Anthropic)

Claude 3.7 Sonnet [P] (Anthropic)

DeepSeek V3 G324

OpenAI o1 Serisi

Gemini 3 Serisi (Google)

Llama 4 Serisi (Meta)

Qwen 2.5-VL-32B

Nous Pro

Llama 3.1 Series

Genel

Giriş

Prompt Mühendisliği

Örnek Konular

Öğrenme Seviyeleri

Araştırma

​Model Kıyaslamaları

​Model Detayları

​GPT-4o (OpenAI)

​Claude 3.5 Sonnet (Anthropic)

​Claude 3.7 Sonnet [P] (Anthropic)

​DeepSeek V3 G324

​OpenAI o1 Serisi

​Gemini 3 Serisi (Google)

​Llama 4 Serisi (Meta)

​Qwen 2.5-VL-32B

​Nous Pro

​Llama 3.1 Series

Model Kıyaslamaları

Model Detayları

GPT-4o (OpenAI)

Claude 3.5 Sonnet (Anthropic)

Claude 3.7 Sonnet [P] (Anthropic)

DeepSeek V3 G324

OpenAI o1 Serisi

Gemini 3 Serisi (Google)

Llama 4 Serisi (Meta)

Qwen 2.5-VL-32B

Nous Pro

Llama 3.1 Series