Model benchmarks

Tolok Ukur Model

Model
GPT-4o	51.4%	66.1%	31%	60.3%	72.09%	27%
Claude 3.5 Sonnet	18%	65%	49%	76%	65.46%	55.6%
Claude 3.7 Sonnet	23.3%	68%	62.3%	82.2%	68.3	60.4%
GPT-4.5	36.7%	74.1%	39%	n/a	69.94%	44.6%
DeepSeek V3 G324	58.4%	64.9%	38.6%	81%	68.05%	58.1%
Claude 3.7 Sonnet [P]	61.3%	78.2%	73.3%	86.5%	83.3%	64.9%
OpenAI o1-mini	63.6%	60%	n/a	90%	62.2%	52.8%
OpenAI o1	79.2%	79.7%	46.6%	95.4%	67.8%	67%
OpenAI o1-mini-2	87.3%	79.7%	61%	97.6%	65.12%	60.4%
Gemini 2.0 Pro	52%	84%	63.6%	n/a	n/a	72.5%
Gemini 3 (Beta)	93.3%	84.8%	n/a	n/a	n/a	n/a
Llama 4 Behemoth	n/a	73.7%	n/a	95%	n/a	n/a
Llama 4 Scout	n/a	87.2%	n/a	n/a	n/a	n/a
Llama 4 Maverick	n/a	88.8%	n/a	n/a	n/a	58.6%
Gemini 3 Pro	n/a	42.4%	52.2%	69%	n/a	4.8%
Qwen 2.5-VL-32B	n/a	46%	18.8%	82.2%	n/a	69.84%
Gemini 2.0 Flash	n/a	62.1%	51.8%	83.7%	60.42	22.2%
Llama 3.1 70b	n/a	50.5%	n/a	77%	77.5	61.45%
Nous Pro	n/a	46.8%	n/a	76.6%	68.4%	61.38%
Claude 3.5 Haiku	n/a	49.8%	40.5%	68.4%	64.31%	28%
Llama 3.1 405b	n/a	49%	n/a	73.8%	81.1%	n/a
GPT-4o-mini	n/a	40.2%	n/a	70.2%	64.1	3.6%

Detail Model

GPT-4o (OpenAI)

Model multimodal yang unggul dalam evaluasi akademik dan penalaran matematika. Menunjukkan performa kuat dalam penalaran logis (BFCL 72.09%) tetapi relatif lebih lemah dalam tugas domain otomotif.

Claude 3.5 Sonnet (Anthropic)

Model seimbang dengan kemampuan koding yang kuat (SWE Bench 49%) dan kemahiran matematika (MATH 500 76%). Pemahaman domain otomotif yang lebih baik dibandingkan versi sebelumnya.

Claude 3.7 Sonnet [P] (Anthropic)

Versi yang ditingkatkan menunjukkan peningkatan dramatis di semua tolok ukur, khususnya dalam rekayasa perangkat lunak (SWE Bench 73.3%) dan logika dasar (BFCL 83.3%). Kemungkinan varian berpemilik.

DeepSeek V3 G324

Serba bisa yang kuat dengan performa MMAE 2024 teratas (58.4%) dan kemampuan matematika yang sangat baik (MATH 500 81%). Mempertahankan performa yang konsisten di semua domain.

OpenAI o1 Series

Model generasi berikutnya menunjukkan performa terobosan dalam matematika (o1-mini-2: MATH 500 97.6%). Varian o1-mini-2 memimpin dalam evaluasi akademik (MMAE 87.3%) sambil mempertahankan kemampuan koding yang kuat.

Gemini 3 Series (Google)

Versi Beta menunjukkan performa MMAE 2024 rekor (93.3%) tetapi benchmarking tidak lengkap. Varian Pro tampaknya dikhususkan untuk tugas yang berbeda dengan hasil campuran.

Llama 4 Series (Meta)

Varian khusus dengan edisi Maverick memimpin dalam GPQA (88.8%). Model Behemoth menunjukkan penalaran matematika yang kuat (MATH 500 95%) sementara varian Scout unggul dalam pertanyaan akademik.

Qwen 2.5-VL-32B

Model dengan fokus visi komputer dengan performa domain otomotif yang mengejutkan (Aide Peugeot 69.84%). Menunjukkan kemampuan matematika yang cukup baik meskipun skor pemrogramannya lebih lemah.

Nous Pro

Model tujuan umum dengan performa menengah yang konsisten di seluruh benchmark. Menunjukkan kekuatan khusus dalam aplikasi otomotif (61.38%) dibandingkan dengan model berukuran serupa.

Llama 3.1 Series

Model skala besar yang menunjukkan kemampuan logika dasar yang kuat (405b: BFCL 81.1%). Varian 70b mempertahankan performa yang seimbang di berbagai domain.

Umum

Pendahuluan

Rekayasa Prompt

Contoh Topik

Tingkat Pembelajaran

Penelitian

Model benchmarks

Tolok Ukur Model

Detail Model

GPT-4o (OpenAI)

Claude 3.5 Sonnet (Anthropic)

Claude 3.7 Sonnet [P] (Anthropic)

DeepSeek V3 G324

OpenAI o1 Series

Gemini 3 Series (Google)

Llama 4 Series (Meta)

Qwen 2.5-VL-32B

Nous Pro

Llama 3.1 Series

Umum

Pendahuluan

Rekayasa Prompt

Contoh Topik

Tingkat Pembelajaran

Penelitian

​Tolok Ukur Model

​Detail Model

​GPT-4o (OpenAI)

​Claude 3.5 Sonnet (Anthropic)

​Claude 3.7 Sonnet [P] (Anthropic)

​DeepSeek V3 G324

​OpenAI o1 Series

​Gemini 3 Series (Google)

​Llama 4 Series (Meta)

​Qwen 2.5-VL-32B

​Nous Pro

​Llama 3.1 Series

Tolok Ukur Model

Detail Model

GPT-4o (OpenAI)

Claude 3.5 Sonnet (Anthropic)

Claude 3.7 Sonnet [P] (Anthropic)

DeepSeek V3 G324

OpenAI o1 Series

Gemini 3 Series (Google)

Llama 4 Series (Meta)

Qwen 2.5-VL-32B

Nous Pro

Llama 3.1 Series