Modell-Benchmarks

Modelle
GPT-4o51.4%66.1%31%60.3%72.09%27%
Claude 3.5 Sonnet18%65%49%76%65.46%55.6%
Claude 3.7 Sonnet23.3%68%62.3%82.2%68.360.4%
GPT-4.536.7%74.1%39%n/a69.94%44.6%
DeepSeek V3 G32458.4%64.9%38.6%81%68.05%58.1%
Claude 3.7 Sonnet [P]61.3%78.2%73.3%86.5%83.3%64.9%
OpenAI o1-mini63.6%60%n/a90%62.2%52.8%
OpenAI o179.2%79.7%46.6%95.4%67.8%67%
OpenAI o1-mini-287.3%79.7%61%97.6%65.12%60.4%
Gemini 2.0 Pro52%84%63.6%n/an/a72.5%
Gemini 3 (Beta)93.3%84.8%n/an/an/an/a
Llama 4 Behemothn/a73.7%n/a95%n/an/a
Llama 4 Scoutn/a87.2%n/an/an/an/a
Llama 4 Maverickn/a88.8%n/an/an/a58.6%
Gemini 3 Pron/a42.4%52.2%69%n/a4.8%
Qwen 2.5-VL-32Bn/a46%18.8%82.2%n/a69.84%
Gemini 2.0 Flashn/a62.1%51.8%83.7%60.4222.2%
Llama 3.1 70bn/a50.5%n/a77%77.561.45%
Nous Pron/a46.8%n/a76.6%68.4%61.38%
Claude 3.5 Haikun/a49.8%40.5%68.4%64.31%28%
Llama 3.1 405bn/a49%n/a73.8%81.1%n/a
GPT-4o-minin/a40.2%n/a70.2%64.13.6%

Modelldetails

GPT-4o (OpenAI)

Multimodales Modell, das in akademischen Evaluierungen und mathematischem Denken herausragt. Zeigt starke Leistung im logischen Denken (BFCL 72,09%), aber relativ schwächere Ergebnisse bei Aufgaben im Automobilbereich.

Claude 3.5 Sonnet (Anthropic)

Ausgewogenes Modell mit starken Programmierfähigkeiten (SWE Bench 49%) und mathematischer Kompetenz (MATH 500 76%). Verbesserte Verständnisfähigkeit im Automobilbereich im Vergleich zu früheren Versionen.

Claude 3.7 Sonnet [P] (Anthropic)

Verbesserte Version mit dramatischen Verbesserungen in allen Benchmarks, insbesondere im Software Engineering (SWE Bench 73,3%) und grundlegender Logik (BFCL 83,3%). Möglicherweise eine proprietäre Variante.

DeepSeek V3 G324

Starkes Allround-Modell mit Top-MMAE 2024-Leistung (58,4%) und exzellenten mathematischen Fähigkeiten (MATH 500 81%). Behält konsistente Leistung über verschiedene Domänen hinweg bei.

OpenAI o1 Series

Modelle der nächsten Generation mit bahnbrechender Leistung in Mathematik (o1-mini-2: MATH 500 97,6%). Die o1-mini-2-Variante führt bei akademischen Evaluierungen (MMAE 87,3%) und behält gleichzeitig starke Programmierfähigkeiten bei.

Gemini 3 Series (Google)

Beta-Version zeigt Rekordleistung bei MMAE 2024 (93,3%), aber unvollständige Benchmarking-Ergebnisse. Pro-Variante scheint auf verschiedene Aufgaben spezialisiert zu sein mit gemischten Ergebnissen.

Llama 4 Series (Meta)

Spezialisierte Varianten, wobei die Maverick-Edition bei GPQA führend ist (88,8%). Das Behemoth-Modell zeigt starkes mathematisches Denkvermögen (MATH 500 95%), während die Scout-Variante bei akademischen Fragestellungen herausragt.

Qwen 2.5-VL-32B

Auf Computer Vision fokussiertes Modell mit überraschender Leistung im Automobilbereich (Aide Peugeot 69,84%). Zeigt trotz schwächerer Programmierwerte anständige mathematische Fähigkeiten.

Nous Pro

Allzweckmodell mit konstanter mittlerer Leistung über alle Benchmarks hinweg. Zeigt besondere Stärke in Automobilanwendungen (61,38%) im Vergleich zu Modellen ähnlicher Größe.

Llama 3.1 Series

Großskalige Modelle, die starke grundlegende Logikfähigkeiten zeigen (405b: BFCL 81,1%). Die 70b-Variante behält eine ausgewogene Leistung über mehrere Domänen hinweg bei.