Context window comparison

Тесты контекстного окна

Модели
Llama 4 Scout	32,000,000	900 т/с	0.33с
Llama 4 Maverick	32,000,000	900 т/с	0.44с
Gemini 3 Pro	128,000	н/д	н/д	800 т/с	0.72с
Qwen 3 [Beta]	н/д	н/д	н/д	н/д	н/д
Gemini 2.0 Pro	1,000,000	800 т/с	0.50с
Claude 3.7 Sonnet	200,000	750 т/с	0.55с
GPT-4.5	128,000	450 т/с	1.20с
Claude 3.7 Sonnet [P]	200,000	750 т/с	0.55с
DeepSeek V3	128,000	350 т/с	4.00с
OpenAI o1-mini	200,000	250 т/с	14.00с
OpenAI o1	128,000	200 т/с	12.64с
OpenAI o1-mini-2	750,000	н/д	н/д	н/д	н/д
DeepSeek V3 G324	128,000	350 т/с	4.00с
Qwen o1	200,000	900 т/с	20.00с
Gemini 2.0 Flash	128,000	500 т/с	0.32с
Llama 3.1 70b	128,000	500 т/с	0.72с
Nous Pro	300,000	500 т/с	0.64с
Claude 3.5 Haiku	200,000	850 т/с	0.35с
Llama 3.1 405b	128,000	350 т/с	0.72с
GPT-4o-mini	128,000	450 т/с	0.50с
GPT-4o	128,000	450 т/с	0.50с
Claude 3.5 Sonnet	200,000	750 т/с	1.20с

Детали моделей

Серия Llama 4 (Meta)

Лидируют в отрасли с огромными контекстными окнами в 32 млн токенов, оба варианта Scout и Maverick предлагают непревзойденные возможности обработки контекста. Несмотря на более высокую стоимость (-/млн токенов), они поддерживают отличную скорость (900 т/с) с минимальной задержкой (0.33-0.44с), что делает их идеальными для крупномасштабной обработки документов и сложного анализа.

Серия Gemini (Google)

Заметный контраст между версиями: Gemini 3 Pro предлагает стандартный контекст 128K, но с улучшенной скоростью (800 т/с), в то время как Gemini 2.0 Pro имеет впечатляющее контекстное окно в 1 млн токенов с конкурентоспособной ценой (/млн входных данных). Обе поддерживают отличную скорость обработки с низкой задержкой, подходящую для корпоративных приложений.

Серия Claude (Anthropic)

Семейство Claude демонстрирует стабильную производительность с контекстными окнами в 200K. 3.7 Sonnet и его вариант [P] предлагают отличное соотношение цены и качества (/млн входных данных, /млн выходных данных) с высокой скоростью (750 т/с). Версии 3.5 сохраняют аналогичные возможности с небольшими вариациями в задержке.

Серия OpenAI

Разнообразная линейка с различными возможностями: модели o1 имеют контекстные окна от 128K до 750K, при этом базовая o1 предлагает хорошее соотношение цены и качества (/млн входных данных, /млн выходных данных). Мини-варианты демонстрируют различные компромиссы между скоростью и задержкой, в то время как модели GPT-4 фокусируются на стабильной производительности.

Серия DeepSeek V3

Предоставляет контекстное окно 128K с очень конкурентоспособной ценой (/млн входных данных, /млн выходных данных). Хотя скорость обработки (350 т/с) и задержка (4с) умеренные, экономическая эффективность делает её подходящей для приложений с ограниченным бюджетом.

Специализированные модели

Серия Qwen: Предлагает контекст 200K со средней ценой, но впечатляющей скоростью (900 т/с)
Nous Pro: Имеет более крупное контекстное окно 300K с доступной ценой (/млн входных данных, /млн выходных данных)
Серия Llama 3.1: Обеспечивает стабильный контекст 128K с экономичной ценой и надежной производительностью

Общие сведения

Введение

Prompt Engineering

Примеры тем

Уровни обучения

Исследования

Context window comparison

Тесты контекстного окна

Детали моделей

Серия Llama 4 (Meta)

Серия Gemini (Google)

Серия Claude (Anthropic)

Серия OpenAI

Серия DeepSeek V3

Специализированные модели

Общие сведения

Введение

Prompt Engineering

Примеры тем

Уровни обучения

Исследования

​Тесты контекстного окна

​Детали моделей

​Серия Llama 4 (Meta)

​Серия Gemini (Google)

​Серия Claude (Anthropic)

​Серия OpenAI

​Серия DeepSeek V3

​Специализированные модели

Тесты контекстного окна

Детали моделей

Серия Llama 4 (Meta)

Серия Gemini (Google)

Серия Claude (Anthropic)

Серия OpenAI

Серия DeepSeek V3

Специализированные модели