Benchmarks de Ventana de Contexto

Modelos
Llama 4 Scout32,000,000900 t/s0.33s
Llama 4 Maverick32,000,000900 t/s0.44s
Gemini 3 Pro128,000n/an/a800 t/s0.72s
Qwen 3 [Beta]n/an/an/an/an/a
Gemini 2.0 Pro1,000,000800 t/s0.50s
Claude 3.7 Sonnet200,000750 t/s0.55s
GPT-4.5128,000450 t/s1.20s
Claude 3.7 Sonnet [P]200,000750 t/s0.55s
DeepSeek V3128,000350 t/s4.00s
OpenAI o1-mini200,000250 t/s14.00s
OpenAI o1128,000200 t/s12.64s
OpenAI o1-mini-2750,000n/an/an/an/a
DeepSeek V3 G324128,000350 t/s4.00s
Qwen o1200,000900 t/s20.00s
Gemini 2.0 Flash128,000500 t/s0.32s
Llama 3.1 70b128,000500 t/s0.72s
Nous Pro300,000500 t/s0.64s
Claude 3.5 Haiku200,000850 t/s0.35s
Llama 3.1 405b128,000350 t/s0.72s
GPT-4o-mini128,000450 t/s0.50s
GPT-4o128,000450 t/s0.50s
Claude 3.5 Sonnet200,000750 t/s1.20s

Detalles del Modelo

Serie Llama 4 (Meta)

Liderando la industria con ventanas de contexto masivas de 32M tokens, tanto las variantes Scout como Maverick ofrecen capacidades de procesamiento de contexto sin precedentes. A pesar de los costos más altos (-/M tokens), mantienen una excelente velocidad (900 t/s) con latencia mínima (0.33-0.44s), haciéndolos ideales para el procesamiento de documentos a gran escala y análisis complejos.

Serie Gemini (Google)

Contraste notable entre versiones: Gemini 3 Pro ofrece un contexto estándar de 128K pero con velocidad mejorada (800 t/s), mientras que Gemini 2.0 Pro presenta una impresionante ventana de contexto de 1M tokens con precios competitivos (/M entrada). Ambos mantienen excelentes velocidades de procesamiento con baja latencia, adecuados para aplicaciones empresariales.

Serie Claude (Anthropic)

La familia Claude muestra un rendimiento consistente con ventanas de contexto de 200K. El 3.7 Sonnet y su variante [P] ofrecen un excelente valor (/M entrada, /M salida) con alta velocidad (750 t/s). Las versiones 3.5 mantienen capacidades similares con ligeras variaciones en latencia.

Serie OpenAI

Alineación diversa con capacidades variadas: los modelos o1 van desde ventanas de contexto de 128K hasta 750K, con el o1 básico ofreciendo buen valor (/M entrada, /M salida). Las variantes mini muestran diferentes compensaciones entre velocidad y latencia, mientras que los modelos GPT-4 se centran en un rendimiento consistente.

Serie DeepSeek V3

Proporciona una ventana de contexto de 128K con precios altamente competitivos (/M entrada, /M salida). Si bien la velocidad de procesamiento (350 t/s) y la latencia (4s) son moderadas, la rentabilidad lo hace adecuado para aplicaciones con presupuesto limitado.

Modelos Especializados

  • Serie Qwen: Ofrece contexto de 200K con precios de rango medio pero velocidad impresionante (900 t/s)
  • Nous Pro: Presenta una ventana de contexto más grande de 300K con precios asequibles (/M entrada, /M salida)
  • Llama 3.1 Series: Proporciona un contexto consistente de 128K con precios económicos y rendimiento confiable