Тесты контекстного окна

Модели
Llama 4 Scout32,000,000900 т/с0.33с
Llama 4 Maverick32,000,000900 т/с0.44с
Gemini 3 Pro128,000н/дн/д800 т/с0.72с
Qwen 3 [Beta]н/дн/дн/дн/дн/д
Gemini 2.0 Pro1,000,000800 т/с0.50с
Claude 3.7 Sonnet200,000750 т/с0.55с
GPT-4.5128,000450 т/с1.20с
Claude 3.7 Sonnet [P]200,000750 т/с0.55с
DeepSeek V3128,000350 т/с4.00с
OpenAI o1-mini200,000250 т/с14.00с
OpenAI o1128,000200 т/с12.64с
OpenAI o1-mini-2750,000н/дн/дн/дн/д
DeepSeek V3 G324128,000350 т/с4.00с
Qwen o1200,000900 т/с20.00с
Gemini 2.0 Flash128,000500 т/с0.32с
Llama 3.1 70b128,000500 т/с0.72с
Nous Pro300,000500 т/с0.64с
Claude 3.5 Haiku200,000850 т/с0.35с
Llama 3.1 405b128,000350 т/с0.72с
GPT-4o-mini128,000450 т/с0.50с
GPT-4o128,000450 т/с0.50с
Claude 3.5 Sonnet200,000750 т/с1.20с

Детали моделей

Серия Llama 4 (Meta)

Лидируют в отрасли с огромными контекстными окнами в 32 млн токенов, оба варианта Scout и Maverick предлагают непревзойденные возможности обработки контекста. Несмотря на более высокую стоимость (-/млн токенов), они поддерживают отличную скорость (900 т/с) с минимальной задержкой (0.33-0.44с), что делает их идеальными для крупномасштабной обработки документов и сложного анализа.

Серия Gemini (Google)

Заметный контраст между версиями: Gemini 3 Pro предлагает стандартный контекст 128K, но с улучшенной скоростью (800 т/с), в то время как Gemini 2.0 Pro имеет впечатляющее контекстное окно в 1 млн токенов с конкурентоспособной ценой (/млн входных данных). Обе поддерживают отличную скорость обработки с низкой задержкой, подходящую для корпоративных приложений.

Серия Claude (Anthropic)

Семейство Claude демонстрирует стабильную производительность с контекстными окнами в 200K. 3.7 Sonnet и его вариант [P] предлагают отличное соотношение цены и качества (/млн входных данных, /млн выходных данных) с высокой скоростью (750 т/с). Версии 3.5 сохраняют аналогичные возможности с небольшими вариациями в задержке.

Серия OpenAI

Разнообразная линейка с различными возможностями: модели o1 имеют контекстные окна от 128K до 750K, при этом базовая o1 предлагает хорошее соотношение цены и качества (/млн входных данных, /млн выходных данных). Мини-варианты демонстрируют различные компромиссы между скоростью и задержкой, в то время как модели GPT-4 фокусируются на стабильной производительности.

Серия DeepSeek V3

Предоставляет контекстное окно 128K с очень конкурентоспособной ценой (/млн входных данных, /млн выходных данных). Хотя скорость обработки (350 т/с) и задержка (4с) умеренные, экономическая эффективность делает её подходящей для приложений с ограниченным бюджетом.

Специализированные модели

  • Серия Qwen: Предлагает контекст 200K со средней ценой, но впечатляющей скоростью (900 т/с)
  • Nous Pro: Имеет более крупное контекстное окно 300K с доступной ценой (/млн входных данных, /млн выходных данных)
  • Серия Llama 3.1: Обеспечивает стабильный контекст 128K с экономичной ценой и надежной производительностью