Tolok Ukur Model

Model
GPT-4o51.4%66.1%31%60.3%72.09%27%
Claude 3.5 Sonnet18%65%49%76%65.46%55.6%
Claude 3.7 Sonnet23.3%68%62.3%82.2%68.360.4%
GPT-4.536.7%74.1%39%n/a69.94%44.6%
DeepSeek V3 G32458.4%64.9%38.6%81%68.05%58.1%
Claude 3.7 Sonnet [P]61.3%78.2%73.3%86.5%83.3%64.9%
OpenAI o1-mini63.6%60%n/a90%62.2%52.8%
OpenAI o179.2%79.7%46.6%95.4%67.8%67%
OpenAI o1-mini-287.3%79.7%61%97.6%65.12%60.4%
Gemini 2.0 Pro52%84%63.6%n/an/a72.5%
Gemini 3 (Beta)93.3%84.8%n/an/an/an/a
Llama 4 Behemothn/a73.7%n/a95%n/an/a
Llama 4 Scoutn/a87.2%n/an/an/an/a
Llama 4 Maverickn/a88.8%n/an/an/a58.6%
Gemini 3 Pron/a42.4%52.2%69%n/a4.8%
Qwen 2.5-VL-32Bn/a46%18.8%82.2%n/a69.84%
Gemini 2.0 Flashn/a62.1%51.8%83.7%60.4222.2%
Llama 3.1 70bn/a50.5%n/a77%77.561.45%
Nous Pron/a46.8%n/a76.6%68.4%61.38%
Claude 3.5 Haikun/a49.8%40.5%68.4%64.31%28%
Llama 3.1 405bn/a49%n/a73.8%81.1%n/a
GPT-4o-minin/a40.2%n/a70.2%64.13.6%

Detail Model

GPT-4o (OpenAI)

Model multimodal yang unggul dalam evaluasi akademik dan penalaran matematika. Menunjukkan performa kuat dalam penalaran logis (BFCL 72.09%) tetapi relatif lebih lemah dalam tugas domain otomotif.

Claude 3.5 Sonnet (Anthropic)

Model seimbang dengan kemampuan koding yang kuat (SWE Bench 49%) dan kemahiran matematika (MATH 500 76%). Pemahaman domain otomotif yang lebih baik dibandingkan versi sebelumnya.

Claude 3.7 Sonnet [P] (Anthropic)

Versi yang ditingkatkan menunjukkan peningkatan dramatis di semua tolok ukur, khususnya dalam rekayasa perangkat lunak (SWE Bench 73.3%) dan logika dasar (BFCL 83.3%). Kemungkinan varian berpemilik.

DeepSeek V3 G324

Serba bisa yang kuat dengan performa MMAE 2024 teratas (58.4%) dan kemampuan matematika yang sangat baik (MATH 500 81%). Mempertahankan performa yang konsisten di semua domain.

OpenAI o1 Series

Model generasi berikutnya menunjukkan performa terobosan dalam matematika (o1-mini-2: MATH 500 97.6%). Varian o1-mini-2 memimpin dalam evaluasi akademik (MMAE 87.3%) sambil mempertahankan kemampuan koding yang kuat.

Gemini 3 Series (Google)

Versi Beta menunjukkan performa MMAE 2024 rekor (93.3%) tetapi benchmarking tidak lengkap. Varian Pro tampaknya dikhususkan untuk tugas yang berbeda dengan hasil campuran.

Llama 4 Series (Meta)

Varian khusus dengan edisi Maverick memimpin dalam GPQA (88.8%). Model Behemoth menunjukkan penalaran matematika yang kuat (MATH 500 95%) sementara varian Scout unggul dalam pertanyaan akademik.

Qwen 2.5-VL-32B

Model dengan fokus visi komputer dengan performa domain otomotif yang mengejutkan (Aide Peugeot 69.84%). Menunjukkan kemampuan matematika yang cukup baik meskipun skor pemrogramannya lebih lemah.

Nous Pro

Model tujuan umum dengan performa menengah yang konsisten di seluruh benchmark. Menunjukkan kekuatan khusus dalam aplikasi otomotif (61.38%) dibandingkan dengan model berukuran serupa.

Llama 3.1 Series

Model skala besar yang menunjukkan kemampuan logika dasar yang kuat (405b: BFCL 81.1%). Varian 70b mempertahankan performa yang seimbang di berbagai domain.