Model benchmarks

Puntos de referencia de modelos

Modelos
GPT-4o	51.4%	66.1%	31%	60.3%	72.09%	27%
Claude 3.5 Sonnet	18%	65%	49%	76%	65.46%	55.6%
Claude 3.7 Sonnet	23.3%	68%	62.3%	82.2%	68.3	60.4%
GPT-4.5	36.7%	74.1%	39%	n/a	69.94%	44.6%
DeepSeek V3 G324	58.4%	64.9%	38.6%	81%	68.05%	58.1%
Claude 3.7 Sonnet [P]	61.3%	78.2%	73.3%	86.5%	83.3%	64.9%
OpenAI o1-mini	63.6%	60%	n/a	90%	62.2%	52.8%
OpenAI o1	79.2%	79.7%	46.6%	95.4%	67.8%	67%
OpenAI o1-mini-2	87.3%	79.7%	61%	97.6%	65.12%	60.4%
Gemini 2.0 Pro	52%	84%	63.6%	n/a	n/a	72.5%
Gemini 3 (Beta)	93.3%	84.8%	n/a	n/a	n/a	n/a
Llama 4 Behemoth	n/a	73.7%	n/a	95%	n/a	n/a
Llama 4 Scout	n/a	87.2%	n/a	n/a	n/a	n/a
Llama 4 Maverick	n/a	88.8%	n/a	n/a	n/a	58.6%
Gemini 3 Pro	n/a	42.4%	52.2%	69%	n/a	4.8%
Qwen 2.5-VL-32B	n/a	46%	18.8%	82.2%	n/a	69.84%
Gemini 2.0 Flash	n/a	62.1%	51.8%	83.7%	60.42	22.2%
Llama 3.1 70b	n/a	50.5%	n/a	77%	77.5	61.45%
Nous Pro	n/a	46.8%	n/a	76.6%	68.4%	61.38%
Claude 3.5 Haiku	n/a	49.8%	40.5%	68.4%	64.31%	28%
Llama 3.1 405b	n/a	49%	n/a	73.8%	81.1%	n/a
GPT-4o-mini	n/a	40.2%	n/a	70.2%	64.1	3.6%

Detalles del modelo

GPT-4o (OpenAI)

Modelo multimodal que sobresale en evaluaciones académicas y razonamiento matemático. Muestra un fuerte rendimiento en razonamiento lógico (BFCL 72.09%) pero relativamente más débil en tareas del dominio automotriz.

Claude 3.5 Sonnet (Anthropic)

Modelo equilibrado con fuertes capacidades de codificación (SWE Bench 49%) y competencia matemática (MATH 500 76%). Comprensión mejorada del dominio automotriz en comparación con versiones anteriores.

Claude 3.7 Sonnet [P] (Anthropic)

Versión mejorada que muestra mejoras dramáticas en todos los puntos de referencia, particularmente en ingeniería de software (SWE Bench 73.3%) y lógica fundamental (BFCL 83.3%). Posible variante propietaria.

DeepSeek V3 G324

Modelo versátil con alto rendimiento en MMAE 2024 (58.4%) y excelentes capacidades matemáticas (MATH 500 81%). Mantiene un rendimiento consistente en todos los dominios.

OpenAI o1 Series

Modelos de próxima generación que muestran un rendimiento revolucionario en matemáticas (o1-mini-2: MATH 500 97.6%). La variante o1-mini-2 lidera en evaluaciones académicas (MMAE 87.3%) mientras mantiene fuertes habilidades de codificación.

Gemini 3 Series (Google)

La versión Beta muestra un rendimiento récord en MMAE 2024 (93.3%) pero con evaluación comparativa incompleta. La variante Pro parece especializada para diferentes tareas con resultados mixtos.

Llama 4 Series (Meta)

Variantes especializadas con la edición Maverick liderando en GPQA (88.8%). El modelo Behemoth muestra un fuerte razonamiento matemático (MATH 500 95%) mientras que la variante Scout sobresale en cuestionamiento académico.

Qwen 2.5-VL-32B

Modelo enfocado en visión por computadora con sorprendente rendimiento en el dominio automotriz (Aide Peugeot 69.84%). Muestra capacidades matemáticas decentes a pesar de puntuaciones más débiles en programación.

Nous Pro

Modelo de propósito general con rendimiento consistente de rango medio en todos los benchmarks. Muestra particular fortaleza en aplicaciones automotrices (61.38%) en comparación con modelos de tamaño similar.

Llama 3.1 Series

Modelos a gran escala que muestran fuertes capacidades de lógica fundamental (405b: BFCL 81.1%). La variante de 70b mantiene un rendimiento equilibrado en múltiples dominios.

General

Introducción

Ingeniería de Prompts

Temas de Ejemplo

Niveles de Aprendizaje

Investigación

Model benchmarks

Puntos de referencia de modelos

Detalles del modelo

GPT-4o (OpenAI)

Claude 3.5 Sonnet (Anthropic)

Claude 3.7 Sonnet [P] (Anthropic)

DeepSeek V3 G324

OpenAI o1 Series

Gemini 3 Series (Google)

Llama 4 Series (Meta)

Qwen 2.5-VL-32B

Nous Pro

Llama 3.1 Series

General

Introducción

Ingeniería de Prompts

Temas de Ejemplo

Niveles de Aprendizaje

Investigación

​Puntos de referencia de modelos

​Detalles del modelo

​GPT-4o (OpenAI)

​Claude 3.5 Sonnet (Anthropic)

​Claude 3.7 Sonnet [P] (Anthropic)

​DeepSeek V3 G324

​OpenAI o1 Series

​Gemini 3 Series (Google)

​Llama 4 Series (Meta)

​Qwen 2.5-VL-32B

​Nous Pro

​Llama 3.1 Series

Puntos de referencia de modelos

Detalles del modelo

GPT-4o (OpenAI)

Claude 3.5 Sonnet (Anthropic)

Claude 3.7 Sonnet [P] (Anthropic)

DeepSeek V3 G324

OpenAI o1 Series

Gemini 3 Series (Google)

Llama 4 Series (Meta)

Qwen 2.5-VL-32B

Nous Pro

Llama 3.1 Series