Benchmarks de Janela de Contexto

Modelos
Llama 4 Scout32.000.000900 t/s0,33s
Llama 4 Maverick32.000.000900 t/s0,44s
Gemini 3 Pro128.000n/an/a800 t/s0,72s
Qwen 3 [Beta]n/an/an/an/an/a
Gemini 2.0 Pro1.000.000800 t/s0,50s
Claude 3.7 Sonnet200.000750 t/s0,55s
GPT-4.5128.000450 t/s1,20s
Claude 3.7 Sonnet [P]200.000750 t/s0,55s
DeepSeek V3128.000350 t/s4,00s
OpenAI o1-mini200.000250 t/s14,00s
OpenAI o1128.000200 t/s12,64s
OpenAI o1-mini-2750.000n/an/an/an/a
DeepSeek V3 G324128.000350 t/s4,00s
Qwen o1200.000900 t/s20,00s
Gemini 2.0 Flash128.000500 t/s0,32s
Llama 3.1 70b128.000500 t/s0,72s
Nous Pro300.000500 t/s0,64s
Claude 3.5 Haiku200.000850 t/s0,35s
Llama 3.1 405b128.000350 t/s0,72s
GPT-4o-mini128.000450 t/s0,50s
GPT-4o128.000450 t/s0,50s
Claude 3.5 Sonnet200.000750 t/s1,20s

Detalhes do Modelo

Série Llama 4 (Meta)

Liderando o setor com janelas de contexto massivas de 32M tokens, tanto as variantes Scout quanto Maverick oferecem capacidades de processamento de contexto sem paralelo. Apesar dos custos mais altos (-/M tokens), eles mantêm excelente velocidade (900 t/s) com latência mínima (0,33-0,44s), tornando-os ideais para processamento de documentos em larga escala e análises complexas.

Série Gemini (Google)

Contraste notável entre versões: Gemini 3 Pro oferece contexto padrão de 128K mas com velocidade melhorada (800 t/s), enquanto Gemini 2.0 Pro apresenta uma impressionante janela de contexto de 1M tokens com preços competitivos (/M entrada). Ambos mantêm excelentes velocidades de processamento com baixa latência, adequados para aplicações empresariais.

Série Claude (Anthropic)

A família Claude mostra desempenho consistente com janelas de contexto de 200K. O 3.7 Sonnet e sua variante [P] oferecem excelente valor (/M entrada, /M saída) com forte velocidade (750 t/s). As versões 3.5 mantêm capacidades similares com pequenas variações na latência.

Série OpenAI

Linha diversificada com capacidades variadas: modelos o1 variam de 128K a 750K janelas de contexto, com o o1 básico oferecendo bom valor (/M entrada, /M saída). As variantes mini mostram diferentes compensações entre velocidade e latência, enquanto os modelos GPT-4 focam em desempenho consistente.

Série DeepSeek V3

Fornece uma janela de contexto de 128K com preços altamente competitivos (/M entrada, /M saída). Enquanto a velocidade de processamento (350 t/s) e latência (4s) são moderadas, a relação custo-benefício o torna adequado para aplicações com orçamento limitado.

Modelos Especializados

  • Série Qwen: Oferece contexto de 200K com preços médios, mas velocidade impressionante (900 t/s)
  • Nous Pro: Apresenta uma janela de contexto maior de 300K com preços acessíveis (/M entrada, /M saída)
  • Série Llama 3.1: Fornece contexto consistente de 128K com preços econômicos e desempenho confiável