Model Kıyaslamaları

Modeller
GPT-4o51.4%66.1%31%60.3%72.09%27%
Claude 3.5 Sonnet18%65%49%76%65.46%55.6%
Claude 3.7 Sonnet23.3%68%62.3%82.2%68.360.4%
GPT-4.536.7%74.1%39%n/a69.94%44.6%
DeepSeek V3 G32458.4%64.9%38.6%81%68.05%58.1%
Claude 3.7 Sonnet [P]61.3%78.2%73.3%86.5%83.3%64.9%
OpenAI o1-mini63.6%60%n/a90%62.2%52.8%
OpenAI o179.2%79.7%46.6%95.4%67.8%67%
OpenAI o1-mini-287.3%79.7%61%97.6%65.12%60.4%
Gemini 2.0 Pro52%84%63.6%n/an/a72.5%
Gemini 3 (Beta)93.3%84.8%n/an/an/an/a
Llama 4 Behemothn/a73.7%n/a95%n/an/a
Llama 4 Scoutn/a87.2%n/an/an/an/a
Llama 4 Maverickn/a88.8%n/an/an/a58.6%
Gemini 3 Pron/a42.4%52.2%69%n/a4.8%
Qwen 2.5-VL-32Bn/a46%18.8%82.2%n/a69.84%
Gemini 2.0 Flashn/a62.1%51.8%83.7%60.4222.2%
Llama 3.1 70bn/a50.5%n/a77%77.561.45%
Nous Pron/a46.8%n/a76.6%68.4%61.38%
Claude 3.5 Haikun/a49.8%40.5%68.4%64.31%28%
Llama 3.1 405bn/a49%n/a73.8%81.1%n/a
GPT-4o-minin/a40.2%n/a70.2%64.13.6%

Model Detayları

GPT-4o (OpenAI)

Akademik değerlendirmelerde ve matematiksel akıl yürütmede üstün başarı gösteren çok modlu model. Mantıksal akıl yürütmede güçlü performans (BFCL %72.09) gösterirken otomotiv alanı görevlerinde nispeten daha zayıf.

Claude 3.5 Sonnet (Anthropic)

Güçlü kodlama yetenekleri (SWE Bench %49) ve matematiksel yetkinlik (MATH 500 %76) ile dengeli bir model. Önceki sürümlere kıyasla geliştirilmiş otomotiv alanı anlayışı.

Claude 3.7 Sonnet [P] (Anthropic)

Tüm kıyaslamalarda, özellikle yazılım mühendisliğinde (SWE Bench %73.3) ve temel mantıkta (BFCL %83.3) çarpıcı iyileştirmeler gösteren geliştirilmiş sürüm. Potansiyel özel varyant.

DeepSeek V3 G324

En yüksek MMAE 2024 performansı (%58.4) ve mükemmel matematiksel yetenekler (MATH 500 %81) ile güçlü bir çok yönlü model. Tüm alanlarda tutarlı performans sergiliyor.

OpenAI o1 Serisi

Matematikte çığır açan performans gösteren yeni nesil modeller (o1-mini-2: MATH 500 %97.6). o1-mini-2 varyantı, güçlü kodlama yeteneklerini korurken akademik değerlendirmelerde (MMAE %87.3) öncülük ediyor.

Gemini 3 Serisi (Google)

Beta sürümü rekor MMAE 2024 performansı (%93.3) gösteriyor ancak kıyaslama tamamlanmamış. Pro varyantı karışık sonuçlarla farklı görevler için özelleştirilmiş görünüyor.

Llama 4 Serisi (Meta)

Maverick sürümünün GPQA’da (%88.8) öncülük ettiği özelleştirilmiş varyantlar. Behemoth modeli güçlü matematiksel akıl yürütme (MATH 500 %95) gösterirken, Scout varyantı akademik sorgulamada öne çıkıyor.

Qwen 2.5-VL-32B

Bilgisayar görüşü odaklı model, otomotiv alanında şaşırtıcı performans gösteriyor (Aide Peugeot %69.84). Daha zayıf programlama puanlarına rağmen iyi matematiksel yetenekler sergiliyor.

Nous Pro

Kıyaslama testlerinde tutarlı orta seviye performans gösteren genel amaçlı model. Benzer boyuttaki modellere kıyasla özellikle otomotiv uygulamalarında (%61.38) güçlü yönler gösteriyor.

Llama 3.1 Series

Güçlü temel mantık yetenekleri gösteren büyük ölçekli modeller (405b: BFCL %81.1). 70b varyantı birden fazla alanda dengeli performans sürdürüyor.