Model benchmarks
모델 벤치마크
모델 | ||||||
---|---|---|---|---|---|---|
GPT-4o | 51.4% | 66.1% | 31% | 60.3% | 72.09% | 27% |
Claude 3.5 Sonnet | 18% | 65% | 49% | 76% | 65.46% | 55.6% |
Claude 3.7 Sonnet | 23.3% | 68% | 62.3% | 82.2% | 68.3 | 60.4% |
GPT-4.5 | 36.7% | 74.1% | 39% | n/a | 69.94% | 44.6% |
DeepSeek V3 G324 | 58.4% | 64.9% | 38.6% | 81% | 68.05% | 58.1% |
Claude 3.7 Sonnet [P] | 61.3% | 78.2% | 73.3% | 86.5% | 83.3% | 64.9% |
OpenAI o1-mini | 63.6% | 60% | n/a | 90% | 62.2% | 52.8% |
OpenAI o1 | 79.2% | 79.7% | 46.6% | 95.4% | 67.8% | 67% |
OpenAI o1-mini-2 | 87.3% | 79.7% | 61% | 97.6% | 65.12% | 60.4% |
Gemini 2.0 Pro | 52% | 84% | 63.6% | n/a | n/a | 72.5% |
Gemini 3 (Beta) | 93.3% | 84.8% | n/a | n/a | n/a | n/a |
Llama 4 Behemoth | n/a | 73.7% | n/a | 95% | n/a | n/a |
Llama 4 Scout | n/a | 87.2% | n/a | n/a | n/a | n/a |
Llama 4 Maverick | n/a | 88.8% | n/a | n/a | n/a | 58.6% |
Gemini 3 Pro | n/a | 42.4% | 52.2% | 69% | n/a | 4.8% |
Qwen 2.5-VL-32B | n/a | 46% | 18.8% | 82.2% | n/a | 69.84% |
Gemini 2.0 Flash | n/a | 62.1% | 51.8% | 83.7% | 60.42 | 22.2% |
Llama 3.1 70b | n/a | 50.5% | n/a | 77% | 77.5 | 61.45% |
Nous Pro | n/a | 46.8% | n/a | 76.6% | 68.4% | 61.38% |
Claude 3.5 Haiku | n/a | 49.8% | 40.5% | 68.4% | 64.31% | 28% |
Llama 3.1 405b | n/a | 49% | n/a | 73.8% | 81.1% | n/a |
GPT-4o-mini | n/a | 40.2% | n/a | 70.2% | 64.1 | 3.6% |
모델 세부 정보
GPT-4o (OpenAI)
학술 평가와 수학적 추론에서 뛰어난 성능을 보이는 멀티모달 모델. 논리적 추론(BFCL 72.09%)에서 강한 성능을 보이지만 자동차 도메인 작업에서는 상대적으로 약한 모습을 보입니다.
Claude 3.5 Sonnet (Anthropic)
코딩 능력(SWE Bench 49%)과 수학적 능력(MATH 500 76%)이 뛰어난 균형 잡힌 모델. 이전 버전에 비해 자동차 도메인 이해도가 향상되었습니다.
Claude 3.7 Sonnet [P] (Anthropic)
모든 벤치마크에서 극적인 개선을 보여주는 향상된 버전으로, 특히 소프트웨어 엔지니어링(SWE Bench 73.3%)과 기초 논리(BFCL 83.3%)에서 두각을 나타냅니다. 잠재적 독점 변형 모델입니다.
DeepSeek V3 G324
MMAE 2024에서 최고 성능(58.4%)과 뛰어난 수학적 능력(MATH 500 81%)을 갖춘 강력한 올라운더. 다양한 도메인에서 일관된 성능을 유지합니다.
OpenAI o1 시리즈
수학 분야에서 획기적인 성능(o1-mini-2: MATH 500 97.6%)을 보여주는 차세대 모델. o1-mini-2 변형은 강력한 코딩 능력을 유지하면서 학술 평가(MMAE 87.3%)에서 선두를 차지합니다.
Gemini 3 시리즈 (Google)
베타 버전은 MMAE 2024에서 기록적인 성능(93.3%)을 보여주지만 벤치마크가 불완전합니다. Pro 변형은 혼합된 결과로 다양한 작업에 특화된 것으로 보입니다.
Llama 4 시리즈 (Meta)
Maverick 에디션이 GPQA(88.8%)에서 선두를 차지하는 특화된 변형. Behemoth 모델은 강력한 수학적 추론(MATH 500 95%)을 보여주는 반면, Scout 변형은 학술적 질문에서 뛰어납니다.
Qwen 2.5-VL-32B
컴퓨터 비전에 중점을 둔 모델로 자동차 도메인에서 놀라운 성능을 보임(Aide Peugeot 69.84%). 프로그래밍 점수는 낮지만 괜찮은 수학적 능력을 보여줌.
Nous Pro
벤치마크 전반에 걸쳐 일관된 중간 범위 성능을 보이는 범용 모델. 비슷한 크기의 모델에 비해 자동차 애플리케이션(61.38%)에서 특별한 강점을 보임.
Llama 3.1 Series
강력한 기초 논리 능력을 보여주는 대규모 모델(405b: BFCL 81.1%). 70b 변형은 여러 도메인에서 균형 잡힌 성능을 유지함.