Context window comparison
Benchmarks de Janela de Contexto
Modelos | |||||
---|---|---|---|---|---|
Llama 4 Scout | 32.000.000 | 900 t/s | 0,33s | ||
Llama 4 Maverick | 32.000.000 | 900 t/s | 0,44s | ||
Gemini 3 Pro | 128.000 | n/a | n/a | 800 t/s | 0,72s |
Qwen 3 [Beta] | n/a | n/a | n/a | n/a | n/a |
Gemini 2.0 Pro | 1.000.000 | 800 t/s | 0,50s | ||
Claude 3.7 Sonnet | 200.000 | 750 t/s | 0,55s | ||
GPT-4.5 | 128.000 | 450 t/s | 1,20s | ||
Claude 3.7 Sonnet [P] | 200.000 | 750 t/s | 0,55s | ||
DeepSeek V3 | 128.000 | 350 t/s | 4,00s | ||
OpenAI o1-mini | 200.000 | 250 t/s | 14,00s | ||
OpenAI o1 | 128.000 | 200 t/s | 12,64s | ||
OpenAI o1-mini-2 | 750.000 | n/a | n/a | n/a | n/a |
DeepSeek V3 G324 | 128.000 | 350 t/s | 4,00s | ||
Qwen o1 | 200.000 | 900 t/s | 20,00s | ||
Gemini 2.0 Flash | 128.000 | 500 t/s | 0,32s | ||
Llama 3.1 70b | 128.000 | 500 t/s | 0,72s | ||
Nous Pro | 300.000 | 500 t/s | 0,64s | ||
Claude 3.5 Haiku | 200.000 | 850 t/s | 0,35s | ||
Llama 3.1 405b | 128.000 | 350 t/s | 0,72s | ||
GPT-4o-mini | 128.000 | 450 t/s | 0,50s | ||
GPT-4o | 128.000 | 450 t/s | 0,50s | ||
Claude 3.5 Sonnet | 200.000 | 750 t/s | 1,20s |
Detalhes do Modelo
Série Llama 4 (Meta)
Liderando o setor com janelas de contexto massivas de 32M tokens, tanto as variantes Scout quanto Maverick oferecem capacidades de processamento de contexto sem paralelo. Apesar dos custos mais altos (-/M tokens), eles mantêm excelente velocidade (900 t/s) com latência mínima (0,33-0,44s), tornando-os ideais para processamento de documentos em larga escala e análises complexas.
Série Gemini (Google)
Contraste notável entre versões: Gemini 3 Pro oferece contexto padrão de 128K mas com velocidade melhorada (800 t/s), enquanto Gemini 2.0 Pro apresenta uma impressionante janela de contexto de 1M tokens com preços competitivos (/M entrada). Ambos mantêm excelentes velocidades de processamento com baixa latência, adequados para aplicações empresariais.
Série Claude (Anthropic)
A família Claude mostra desempenho consistente com janelas de contexto de 200K. O 3.7 Sonnet e sua variante [P] oferecem excelente valor (/M entrada, /M saída) com forte velocidade (750 t/s). As versões 3.5 mantêm capacidades similares com pequenas variações na latência.
Série OpenAI
Linha diversificada com capacidades variadas: modelos o1 variam de 128K a 750K janelas de contexto, com o o1 básico oferecendo bom valor (/M entrada, /M saída). As variantes mini mostram diferentes compensações entre velocidade e latência, enquanto os modelos GPT-4 focam em desempenho consistente.
Série DeepSeek V3
Fornece uma janela de contexto de 128K com preços altamente competitivos (/M entrada, /M saída). Enquanto a velocidade de processamento (350 t/s) e latência (4s) são moderadas, a relação custo-benefício o torna adequado para aplicações com orçamento limitado.
Modelos Especializados
- Série Qwen: Oferece contexto de 200K com preços médios, mas velocidade impressionante (900 t/s)
- Nous Pro: Apresenta uma janela de contexto maior de 300K com preços acessíveis (/M entrada, /M saída)
- Llama 3.1 Series: Fornece contexto consistente de 128K com preços econômicos e desempenho confiável