Research overview

Überblick

Der MORPH-Benchmark wurde entwickelt, um die Qualität von KI-generierten Videoinhalten zu bewerten, mit Fokus auf morphologische Genauigkeit, zeitliche Konsistenz, Urheberrechtsrisiko und andere wichtige visuelle und faktische Attribute. Dieser Benchmark ermöglicht einen objektiven Vergleich modernster Text-zu-Video-Modelle und bietet sowohl detaillierte (pro Video) als auch aggregierte (pro Modell) Bewertungen.

Benchmark-Modell: https://huggingface.co/ChimaAI/MORPH-benchmark
Trainingsdatensatz: https://huggingface.co/datasets/ChimaAI/MORPH-dataset

Bewertungsmethodik

Jedes Video wird anhand von 7 Evaluierungsdimensionen bewertet:

Visuelle Qualität (VQ): Klarheit, Auflösung, Helligkeit und Farbe
Zeitliche Konsistenz (TC): Konsistenz von Objekten oder Menschen im Video
Dynamikgrad (DD): Grad der dynamischen Veränderungen
Text-zu-Video-Übereinstimmung (TVA): Übereinstimmung zwischen dem Text-Prompt und dem Videoinhalt
Faktische Konsistenz (FC): Übereinstimmung mit gesundem Menschenverstand und faktischem Wissen
Morphologische Genauigkeit (MF): Realismus, anatomische Konsistenz und Kohärenz menschlicher Figuren während der Bewegung
Urheberrechtsrisiko (CR): Visuelle Ähnlichkeit zu bekannten Medien

Jeder Aspekt wird auf einer Skala von 1–4 bewertet, wobei 4 die optimale Leistung darstellt.

Formel zur Punkteberechnung

Die Endpunktzahl für ein Video wird wie folgt berechnet:

Final Score = ( (1/4) * (N_1 / 7) + (2/4) * (N_2 / 7) + (3/4) * (N_3 / 7) + (4/4) * (N_4 / 7) ) * 100

Wobei Nᵢ die Anzahl der Aspekte ist, die eine Bewertung von i (1, 2, 3 oder 4) erhalten haben.

Example: Für ein Video mit Bewertungen würde die Berechnung lauten:

Final Score = ( (1/4) * (1 / 7) + (2/4) * (3 / 7) + (3/4) * (1 / 7) + (4/4) * (2 / 7) ) * 100 = 64.28

Benchmark-Ergebnisse

Siehe model-comparison.mdx für detaillierte Tabellen mit Ergebnissen pro Modell und pro Epoche.

Evaluierungszusammenfassung

Kling v1.5 hat die höchste Gesamtpunktzahl im MORPH-Benchmark, mit durchgehend starker Leistung sowohl bei visueller Qualität als auch bei morphologischer Genauigkeit.
Sora folgt dicht dahinter, mit einer Leistung, die in den meisten Dimensionen mit Kling vergleichbar ist.
Luma Ray2 und Ray2 Flash Modelle schnitten ebenfalls gut ab, zeigten jedoch gelegentlich Probleme mit faktischer Konsistenz (z.B. Fahrzeuge, die sich in die falsche Richtung auf Autobahnen bewegen).
Pixverse v3.5 und v4 lieferten solide morphologische Genauigkeit, obwohl sie insgesamt etwas niedriger eingestuft wurden.
Modelle wie Minimax Video-01, Mochi v1, und Wan v2.1-1.3B produzierten häufig instabile Figuren, einschließlich fehlender Gliedmaßen, verzerrter Hände und über Frames verschwindender Charaktere, was zu niedrigeren zeitlichen und morphologischen Bewertungen führte.

Leistung des Modell-Evaluators

Das Evaluator-Modell erreichte eine durchschnittliche Spearman-Korrelation von ~0,50 gegenüber dem von Menschen annotierten Testset, was mit dem vorherigen VideoScore-Benchmark von Tigerlab übereinstimmt.
Die Urheberrechtsrisiko-Dimension schnitt hinsichtlich der Korrelation unterdurchschnittlich ab. Trotz Übersampling der Klassen hat das Modell immer noch Schwierigkeiten, Muster zu erlernen, die mit Grenzfällen oder realen Inhalten verbunden sind.
Das Modell neigt dazu, Videos, die echten Aufnahmen stark ähneln, mit [4, 4, 4, 4, 4, 4, 3] zu bewerten, wahrscheinlich aufgrund der Exposition gegenüber ähnlich hochwertigen realen Videos im Trainingsdatensatz.

Zukünftige Verbesserungen

Verbesserung der Label-Vielfalt: Erhöhung der Vielfalt der Trainingsdaten, insbesondere für unterrepräsentierte oder mehrdeutige Beispiele, um dem Modell zu helfen, über alle Dimensionen hinweg besser zu generalisieren.
Verfeinerung des Bewertungsziels: Übergang zu einem regressionsbasierten Bewertungsansatz (wie im ursprünglichen VideoScore-Modell verwendet) für genaueres und kontinuierliches Feedback.
Skalierung der Evaluierungen: Erweiterung der Anzahl der Prompts pro Modell (z.B. von 10 auf 30) für zuverlässigere Benchmarks und reduziertes Sampling-Rauschen.

Allgemeines

Einführung

Prompt Engineering

Beispielthemen

Lernstufen

Forschung

Research overview

Überblick

Bewertungsmethodik

Formel zur Punkteberechnung

Benchmark-Ergebnisse

Evaluierungszusammenfassung

Leistung des Modell-Evaluators

Zukünftige Verbesserungen

Allgemeines

Einführung

Prompt Engineering

Beispielthemen

Lernstufen

Forschung

​Überblick

​Bewertungsmethodik

​Formel zur Punkteberechnung

​Benchmark-Ergebnisse

​Evaluierungszusammenfassung

​Leistung des Modell-Evaluators

​Zukünftige Verbesserungen

Überblick

Bewertungsmethodik

Formel zur Punkteberechnung

Benchmark-Ergebnisse

Evaluierungszusammenfassung

Leistung des Modell-Evaluators

Zukünftige Verbesserungen