Model benchmarks

Benchmarks de Modelos

Modelos
GPT-4o	51.4%	66.1%	31%	60.3%	72.09%	27%
Claude 3.5 Sonnet	18%	65%	49%	76%	65.46%	55.6%
Claude 3.7 Sonnet	23.3%	68%	62.3%	82.2%	68.3	60.4%
GPT-4.5	36.7%	74.1%	39%	n/a	69.94%	44.6%
DeepSeek V3 G324	58.4%	64.9%	38.6%	81%	68.05%	58.1%
Claude 3.7 Sonnet [P]	61.3%	78.2%	73.3%	86.5%	83.3%	64.9%
OpenAI o1-mini	63.6%	60%	n/a	90%	62.2%	52.8%
OpenAI o1	79.2%	79.7%	46.6%	95.4%	67.8%	67%
OpenAI o1-mini-2	87.3%	79.7%	61%	97.6%	65.12%	60.4%
Gemini 2.0 Pro	52%	84%	63.6%	n/a	n/a	72.5%
Gemini 3 (Beta)	93.3%	84.8%	n/a	n/a	n/a	n/a
Llama 4 Behemoth	n/a	73.7%	n/a	95%	n/a	n/a
Llama 4 Scout	n/a	87.2%	n/a	n/a	n/a	n/a
Llama 4 Maverick	n/a	88.8%	n/a	n/a	n/a	58.6%
Gemini 3 Pro	n/a	42.4%	52.2%	69%	n/a	4.8%
Qwen 2.5-VL-32B	n/a	46%	18.8%	82.2%	n/a	69.84%
Gemini 2.0 Flash	n/a	62.1%	51.8%	83.7%	60.42	22.2%
Llama 3.1 70b	n/a	50.5%	n/a	77%	77.5	61.45%
Nous Pro	n/a	46.8%	n/a	76.6%	68.4%	61.38%
Claude 3.5 Haiku	n/a	49.8%	40.5%	68.4%	64.31%	28%
Llama 3.1 405b	n/a	49%	n/a	73.8%	81.1%	n/a
GPT-4o-mini	n/a	40.2%	n/a	70.2%	64.1	3.6%

Detalhes do Modelo

GPT-4o (OpenAI)

Modelo multimodal que se destaca em avaliações acadêmicas e raciocínio matemático. Mostra forte desempenho em raciocínio lógico (BFCL 72.09%) mas relativamente mais fraco em tarefas do domínio automotivo.

Claude 3.5 Sonnet (Anthropic)

Modelo equilibrado com fortes capacidades de codificação (SWE Bench 49%) e proficiência matemática (MATH 500 76%). Compreensão aprimorada do domínio automotivo em comparação com versões anteriores.

Claude 3.7 Sonnet [P] (Anthropic)

Versão aprimorada mostrando melhorias dramáticas em todos os benchmarks, particularmente em engenharia de software (SWE Bench 73.3%) e lógica fundamental (BFCL 83.3%). Potencial variante proprietária.

DeepSeek V3 G324

Forte modelo versátil com desempenho superior no MMAE 2024 (58.4%) e excelentes capacidades matemáticas (MATH 500 81%). Mantém desempenho consistente em todos os domínios.

OpenAI o1 Series

Modelos de próxima geração mostrando desempenho revolucionário em matemática (o1-mini-2: MATH 500 97.6%). A variante o1-mini-2 lidera em avaliações acadêmicas (MMAE 87.3%) enquanto mantém fortes habilidades de codificação.

Gemini 3 Series (Google)

A versão Beta mostra desempenho recorde no MMAE 2024 (93.3%) mas com benchmarking incompleto. A variante Pro parece especializada para diferentes tarefas com resultados mistos.

Llama 4 Series (Meta)

Variantes especializadas com a edição Maverick liderando em GPQA (88.8%). O modelo Behemoth mostra forte raciocínio matemático (MATH 500 95%) enquanto a variante Scout se destaca em questionamentos acadêmicos.

Qwen 2.5-VL-32B

Modelo focado em visão computacional com surpreendente desempenho no domínio automotivo (Aide Peugeot 69,84%). Demonstra capacidades matemáticas decentes apesar de pontuações mais fracas em programação.

Nous Pro

Modelo de uso geral com desempenho consistente de médio alcance em todos os benchmarks. Mostra força particular em aplicações automotivas (61,38%) em comparação com modelos de tamanho similar.

Llama 3.1 Series

Modelos de grande escala mostrando fortes capacidades de lógica fundamental (405b: BFCL 81,1%). A variante de 70b mantém desempenho equilibrado em vários domínios.

Geral

Introdução

Engenharia de Prompts

Tópicos de Exemplo

Níveis de Aprendizado

Pesquisa

Model benchmarks

Benchmarks de Modelos

Detalhes do Modelo

GPT-4o (OpenAI)

Claude 3.5 Sonnet (Anthropic)

Claude 3.7 Sonnet [P] (Anthropic)

DeepSeek V3 G324

OpenAI o1 Series

Gemini 3 Series (Google)

Llama 4 Series (Meta)

Qwen 2.5-VL-32B

Nous Pro

Llama 3.1 Series

Geral

Introdução

Engenharia de Prompts

Tópicos de Exemplo

Níveis de Aprendizado

Pesquisa

​Benchmarks de Modelos

​Detalhes do Modelo

​GPT-4o (OpenAI)

​Claude 3.5 Sonnet (Anthropic)

​Claude 3.7 Sonnet [P] (Anthropic)

​DeepSeek V3 G324

​OpenAI o1 Series

​Gemini 3 Series (Google)

​Llama 4 Series (Meta)

​Qwen 2.5-VL-32B

​Nous Pro

​Llama 3.1 Series

Benchmarks de Modelos

Detalhes do Modelo

GPT-4o (OpenAI)

Claude 3.5 Sonnet (Anthropic)

Claude 3.7 Sonnet [P] (Anthropic)

DeepSeek V3 G324

OpenAI o1 Series

Gemini 3 Series (Google)

Llama 4 Series (Meta)

Qwen 2.5-VL-32B

Nous Pro

Llama 3.1 Series