Context window comparison
Тесты контекстного окна
Модели | |||||
---|---|---|---|---|---|
Llama 4 Scout | 32,000,000 | 900 т/с | 0.33с | ||
Llama 4 Maverick | 32,000,000 | 900 т/с | 0.44с | ||
Gemini 3 Pro | 128,000 | н/д | н/д | 800 т/с | 0.72с |
Qwen 3 [Beta] | н/д | н/д | н/д | н/д | н/д |
Gemini 2.0 Pro | 1,000,000 | 800 т/с | 0.50с | ||
Claude 3.7 Sonnet | 200,000 | 750 т/с | 0.55с | ||
GPT-4.5 | 128,000 | 450 т/с | 1.20с | ||
Claude 3.7 Sonnet [P] | 200,000 | 750 т/с | 0.55с | ||
DeepSeek V3 | 128,000 | 350 т/с | 4.00с | ||
OpenAI o1-mini | 200,000 | 250 т/с | 14.00с | ||
OpenAI o1 | 128,000 | 200 т/с | 12.64с | ||
OpenAI o1-mini-2 | 750,000 | н/д | н/д | н/д | н/д |
DeepSeek V3 G324 | 128,000 | 350 т/с | 4.00с | ||
Qwen o1 | 200,000 | 900 т/с | 20.00с | ||
Gemini 2.0 Flash | 128,000 | 500 т/с | 0.32с | ||
Llama 3.1 70b | 128,000 | 500 т/с | 0.72с | ||
Nous Pro | 300,000 | 500 т/с | 0.64с | ||
Claude 3.5 Haiku | 200,000 | 850 т/с | 0.35с | ||
Llama 3.1 405b | 128,000 | 350 т/с | 0.72с | ||
GPT-4o-mini | 128,000 | 450 т/с | 0.50с | ||
GPT-4o | 128,000 | 450 т/с | 0.50с | ||
Claude 3.5 Sonnet | 200,000 | 750 т/с | 1.20с |
Детали моделей
Серия Llama 4 (Meta)
Лидируют в отрасли с огромными контекстными окнами в 32 млн токенов, оба варианта Scout и Maverick предлагают непревзойденные возможности обработки контекста. Несмотря на более высокую стоимость (-/млн токенов), они поддерживают отличную скорость (900 т/с) с минимальной задержкой (0.33-0.44с), что делает их идеальными для крупномасштабной обработки документов и сложного анализа.
Серия Gemini (Google)
Заметный контраст между версиями: Gemini 3 Pro предлагает стандартный контекст 128K, но с улучшенной скоростью (800 т/с), в то время как Gemini 2.0 Pro имеет впечатляющее контекстное окно в 1 млн токенов с конкурентоспособной ценой (/млн входных данных). Обе поддерживают отличную скорость обработки с низкой задержкой, подходящую для корпоративных приложений.
Серия Claude (Anthropic)
Семейство Claude демонстрирует стабильную производительность с контекстными окнами в 200K. 3.7 Sonnet и его вариант [P] предлагают отличное соотношение цены и качества (/млн входных данных, /млн выходных данных) с высокой скоростью (750 т/с). Версии 3.5 сохраняют аналогичные возможности с небольшими вариациями в задержке.
Серия OpenAI
Разнообразная линейка с различными возможностями: модели o1 имеют контекстные окна от 128K до 750K, при этом базовая o1 предлагает хорошее соотношение цены и качества (/млн входных данных, /млн выходных данных). Мини-варианты демонстрируют различные компромиссы между скоростью и задержкой, в то время как модели GPT-4 фокусируются на стабильной производительности.
Серия DeepSeek V3
Предоставляет контекстное окно 128K с очень конкурентоспособной ценой (/млн входных данных, /млн выходных данных). Хотя скорость обработки (350 т/с) и задержка (4с) умеренные, экономическая эффективность делает её подходящей для приложений с ограниченным бюджетом.
Специализированные модели
- Серия Qwen: Предлагает контекст 200K со средней ценой, но впечатляющей скоростью (900 т/с)
- Nous Pro: Имеет более крупное контекстное окно 300K с доступной ценой (/млн входных данных, /млн выходных данных)
- Серия Llama 3.1: Обеспечивает стабильный контекст 128K с экономичной ценой и надежной производительностью