Model benchmarks
Benchmarks de Modelos
Modelos | ||||||
---|---|---|---|---|---|---|
GPT-4o | 51.4% | 66.1% | 31% | 60.3% | 72.09% | 27% |
Claude 3.5 Sonnet | 18% | 65% | 49% | 76% | 65.46% | 55.6% |
Claude 3.7 Sonnet | 23.3% | 68% | 62.3% | 82.2% | 68.3 | 60.4% |
GPT-4.5 | 36.7% | 74.1% | 39% | n/a | 69.94% | 44.6% |
DeepSeek V3 G324 | 58.4% | 64.9% | 38.6% | 81% | 68.05% | 58.1% |
Claude 3.7 Sonnet [P] | 61.3% | 78.2% | 73.3% | 86.5% | 83.3% | 64.9% |
OpenAI o1-mini | 63.6% | 60% | n/a | 90% | 62.2% | 52.8% |
OpenAI o1 | 79.2% | 79.7% | 46.6% | 95.4% | 67.8% | 67% |
OpenAI o1-mini-2 | 87.3% | 79.7% | 61% | 97.6% | 65.12% | 60.4% |
Gemini 2.0 Pro | 52% | 84% | 63.6% | n/a | n/a | 72.5% |
Gemini 3 (Beta) | 93.3% | 84.8% | n/a | n/a | n/a | n/a |
Llama 4 Behemoth | n/a | 73.7% | n/a | 95% | n/a | n/a |
Llama 4 Scout | n/a | 87.2% | n/a | n/a | n/a | n/a |
Llama 4 Maverick | n/a | 88.8% | n/a | n/a | n/a | 58.6% |
Gemini 3 Pro | n/a | 42.4% | 52.2% | 69% | n/a | 4.8% |
Qwen 2.5-VL-32B | n/a | 46% | 18.8% | 82.2% | n/a | 69.84% |
Gemini 2.0 Flash | n/a | 62.1% | 51.8% | 83.7% | 60.42 | 22.2% |
Llama 3.1 70b | n/a | 50.5% | n/a | 77% | 77.5 | 61.45% |
Nous Pro | n/a | 46.8% | n/a | 76.6% | 68.4% | 61.38% |
Claude 3.5 Haiku | n/a | 49.8% | 40.5% | 68.4% | 64.31% | 28% |
Llama 3.1 405b | n/a | 49% | n/a | 73.8% | 81.1% | n/a |
GPT-4o-mini | n/a | 40.2% | n/a | 70.2% | 64.1 | 3.6% |
Detalhes do Modelo
GPT-4o (OpenAI)
Modelo multimodal que se destaca em avaliações acadêmicas e raciocínio matemático. Mostra forte desempenho em raciocínio lógico (BFCL 72.09%) mas relativamente mais fraco em tarefas do domínio automotivo.
Claude 3.5 Sonnet (Anthropic)
Modelo equilibrado com fortes capacidades de codificação (SWE Bench 49%) e proficiência matemática (MATH 500 76%). Compreensão aprimorada do domínio automotivo em comparação com versões anteriores.
Claude 3.7 Sonnet [P] (Anthropic)
Versão aprimorada mostrando melhorias dramáticas em todos os benchmarks, particularmente em engenharia de software (SWE Bench 73.3%) e lógica fundamental (BFCL 83.3%). Potencial variante proprietária.
DeepSeek V3 G324
Forte modelo versátil com desempenho superior no MMAE 2024 (58.4%) e excelentes capacidades matemáticas (MATH 500 81%). Mantém desempenho consistente em todos os domínios.
OpenAI o1 Series
Modelos de próxima geração mostrando desempenho revolucionário em matemática (o1-mini-2: MATH 500 97.6%). A variante o1-mini-2 lidera em avaliações acadêmicas (MMAE 87.3%) enquanto mantém fortes habilidades de codificação.
Gemini 3 Series (Google)
A versão Beta mostra desempenho recorde no MMAE 2024 (93.3%) mas com benchmarking incompleto. A variante Pro parece especializada para diferentes tarefas com resultados mistos.
Llama 4 Series (Meta)
Variantes especializadas com a edição Maverick liderando em GPQA (88.8%). O modelo Behemoth mostra forte raciocínio matemático (MATH 500 95%) enquanto a variante Scout se destaca em questionamentos acadêmicos.
Qwen 2.5-VL-32B
Modelo focado em visão computacional com surpreendente desempenho no domínio automotivo (Aide Peugeot 69,84%). Demonstra capacidades matemáticas decentes apesar de pontuações mais fracas em programação.
Nous Pro
Modelo de uso geral com desempenho consistente de médio alcance em todos os benchmarks. Mostra força particular em aplicações automotivas (61,38%) em comparação com modelos de tamanho similar.
Llama 3.1 Series
Modelos de grande escala mostrando fortes capacidades de lógica fundamental (405b: BFCL 81,1%). A variante de 70b mantém desempenho equilibrado em vários domínios.