Model benchmarks

모델 벤치마크

모델
GPT-4o	51.4%	66.1%	31%	60.3%	72.09%	27%
Claude 3.5 Sonnet	18%	65%	49%	76%	65.46%	55.6%
Claude 3.7 Sonnet	23.3%	68%	62.3%	82.2%	68.3	60.4%
GPT-4.5	36.7%	74.1%	39%	n/a	69.94%	44.6%
DeepSeek V3 G324	58.4%	64.9%	38.6%	81%	68.05%	58.1%
Claude 3.7 Sonnet [P]	61.3%	78.2%	73.3%	86.5%	83.3%	64.9%
OpenAI o1-mini	63.6%	60%	n/a	90%	62.2%	52.8%
OpenAI o1	79.2%	79.7%	46.6%	95.4%	67.8%	67%
OpenAI o1-mini-2	87.3%	79.7%	61%	97.6%	65.12%	60.4%
Gemini 2.0 Pro	52%	84%	63.6%	n/a	n/a	72.5%
Gemini 3 (Beta)	93.3%	84.8%	n/a	n/a	n/a	n/a
Llama 4 Behemoth	n/a	73.7%	n/a	95%	n/a	n/a
Llama 4 Scout	n/a	87.2%	n/a	n/a	n/a	n/a
Llama 4 Maverick	n/a	88.8%	n/a	n/a	n/a	58.6%
Gemini 3 Pro	n/a	42.4%	52.2%	69%	n/a	4.8%
Qwen 2.5-VL-32B	n/a	46%	18.8%	82.2%	n/a	69.84%
Gemini 2.0 Flash	n/a	62.1%	51.8%	83.7%	60.42	22.2%
Llama 3.1 70b	n/a	50.5%	n/a	77%	77.5	61.45%
Nous Pro	n/a	46.8%	n/a	76.6%	68.4%	61.38%
Claude 3.5 Haiku	n/a	49.8%	40.5%	68.4%	64.31%	28%
Llama 3.1 405b	n/a	49%	n/a	73.8%	81.1%	n/a
GPT-4o-mini	n/a	40.2%	n/a	70.2%	64.1	3.6%

모델 세부 정보

GPT-4o (OpenAI)

학술 평가와 수학적 추론에서 뛰어난 성능을 보이는 멀티모달 모델. 논리적 추론(BFCL 72.09%)에서 강한 성능을 보이지만 자동차 도메인 작업에서는 상대적으로 약한 모습을 보입니다.

Claude 3.5 Sonnet (Anthropic)

코딩 능력(SWE Bench 49%)과 수학적 능력(MATH 500 76%)이 뛰어난 균형 잡힌 모델. 이전 버전에 비해 자동차 도메인 이해도가 향상되었습니다.

Claude 3.7 Sonnet [P] (Anthropic)

모든 벤치마크에서 극적인 개선을 보여주는 향상된 버전으로, 특히 소프트웨어 엔지니어링(SWE Bench 73.3%)과 기초 논리(BFCL 83.3%)에서 두각을 나타냅니다. 잠재적 독점 변형 모델입니다.

DeepSeek V3 G324

MMAE 2024에서 최고 성능(58.4%)과 뛰어난 수학적 능력(MATH 500 81%)을 갖춘 강력한 올라운더. 다양한 도메인에서 일관된 성능을 유지합니다.

OpenAI o1 시리즈

수학 분야에서 획기적인 성능(o1-mini-2: MATH 500 97.6%)을 보여주는 차세대 모델. o1-mini-2 변형은 강력한 코딩 능력을 유지하면서 학술 평가(MMAE 87.3%)에서 선두를 차지합니다.

Gemini 3 시리즈 (Google)

베타 버전은 MMAE 2024에서 기록적인 성능(93.3%)을 보여주지만 벤치마크가 불완전합니다. Pro 변형은 혼합된 결과로 다양한 작업에 특화된 것으로 보입니다.

Llama 4 시리즈 (Meta)

Maverick 에디션이 GPQA(88.8%)에서 선두를 차지하는 특화된 변형. Behemoth 모델은 강력한 수학적 추론(MATH 500 95%)을 보여주는 반면, Scout 변형은 학술적 질문에서 뛰어납니다.

Qwen 2.5-VL-32B

컴퓨터 비전에 중점을 둔 모델로 자동차 도메인에서 놀라운 성능을 보임(Aide Peugeot 69.84%). 프로그래밍 점수는 낮지만 괜찮은 수학적 능력을 보여줌.

Nous Pro

벤치마크 전반에 걸쳐 일관된 중간 범위 성능을 보이는 범용 모델. 비슷한 크기의 모델에 비해 자동차 애플리케이션(61.38%)에서 특별한 강점을 보임.

Llama 3.1 Series

강력한 기초 논리 능력을 보여주는 대규모 모델(405b: BFCL 81.1%). 70b 변형은 여러 도메인에서 균형 잡힌 성능을 유지함.

일반

소개

프롬프트 엔지니어링

샘플 주제

학습 수준

연구

Model benchmarks

모델 벤치마크

모델 세부 정보

GPT-4o (OpenAI)

Claude 3.5 Sonnet (Anthropic)

Claude 3.7 Sonnet [P] (Anthropic)

DeepSeek V3 G324

OpenAI o1 시리즈

Gemini 3 시리즈 (Google)

Llama 4 시리즈 (Meta)

Qwen 2.5-VL-32B

Nous Pro

Llama 3.1 Series

일반

소개

프롬프트 엔지니어링

샘플 주제

학습 수준

연구

​모델 벤치마크

​모델 세부 정보

​GPT-4o (OpenAI)

​Claude 3.5 Sonnet (Anthropic)

​Claude 3.7 Sonnet [P] (Anthropic)

​DeepSeek V3 G324

​OpenAI o1 시리즈

​Gemini 3 시리즈 (Google)

​Llama 4 시리즈 (Meta)

​Qwen 2.5-VL-32B

​Nous Pro

​Llama 3.1 Series

모델 벤치마크

모델 세부 정보

GPT-4o (OpenAI)

Claude 3.5 Sonnet (Anthropic)

Claude 3.7 Sonnet [P] (Anthropic)

DeepSeek V3 G324

OpenAI o1 시리즈

Gemini 3 시리즈 (Google)

Llama 4 시리즈 (Meta)

Qwen 2.5-VL-32B

Nous Pro

Llama 3.1 Series