Überblick

Der MORPH-Benchmark wurde entwickelt, um die Qualität von KI-generierten Videoinhalten zu bewerten, mit Fokus auf morphologische Genauigkeit, zeitliche Konsistenz, Urheberrechtsrisiko und andere wichtige visuelle und faktische Attribute. Dieser Benchmark ermöglicht einen objektiven Vergleich modernster Text-zu-Video-Modelle und bietet sowohl detaillierte (pro Video) als auch aggregierte (pro Modell) Bewertungen.


Bewertungsmethodik

Jedes Video wird anhand von 7 Evaluierungsdimensionen bewertet:

  1. Visuelle Qualität (VQ): Klarheit, Auflösung, Helligkeit und Farbe
  2. Zeitliche Konsistenz (TC): Konsistenz von Objekten oder Menschen im Video
  3. Dynamikgrad (DD): Grad der dynamischen Veränderungen
  4. Text-zu-Video-Übereinstimmung (TVA): Übereinstimmung zwischen dem Text-Prompt und dem Videoinhalt
  5. Faktische Konsistenz (FC): Übereinstimmung mit gesundem Menschenverstand und faktischem Wissen
  6. Morphologische Genauigkeit (MF): Realismus, anatomische Konsistenz und Kohärenz menschlicher Figuren während der Bewegung
  7. Urheberrechtsrisiko (CR): Visuelle Ähnlichkeit zu bekannten Medien

Jeder Aspekt wird auf einer Skala von 1–4 bewertet, wobei 4 die optimale Leistung darstellt.

Formel zur Punkteberechnung

Die Endpunktzahl für ein Video wird wie folgt berechnet:

Final Score = ( (1/4) * (N_1 / 7) + (2/4) * (N_2 / 7) + (3/4) * (N_3 / 7) + (4/4) * (N_4 / 7) ) * 100

Wobei Nᵢ die Anzahl der Aspekte ist, die eine Bewertung von i (1, 2, 3 oder 4) erhalten haben.

Example: Für ein Video mit Bewertungen würde die Berechnung lauten:

Final Score = ( (1/4) * (1 / 7) + (2/4) * (3 / 7) + (3/4) * (1 / 7) + (4/4) * (2 / 7) ) * 100 = 64.28

Benchmark-Ergebnisse

Siehe model-comparison.mdx für detaillierte Tabellen mit Ergebnissen pro Modell und pro Epoche.


Evaluierungszusammenfassung

  • Kling v1.5 hat die höchste Gesamtpunktzahl im MORPH-Benchmark, mit durchgehend starker Leistung sowohl bei visueller Qualität als auch bei morphologischer Genauigkeit.
  • Sora folgt dicht dahinter, mit einer Leistung, die in den meisten Dimensionen mit Kling vergleichbar ist.
  • Luma Ray2 und Ray2 Flash Modelle schnitten ebenfalls gut ab, zeigten jedoch gelegentlich Probleme mit faktischer Konsistenz (z.B. Fahrzeuge, die sich in die falsche Richtung auf Autobahnen bewegen).
  • Pixverse v3.5 und v4 lieferten solide morphologische Genauigkeit, obwohl sie insgesamt etwas niedriger eingestuft wurden.
  • Modelle wie Minimax Video-01, Mochi v1, und Wan v2.1-1.3B produzierten häufig instabile Figuren, einschließlich fehlender Gliedmaßen, verzerrter Hände und über Frames verschwindender Charaktere, was zu niedrigeren zeitlichen und morphologischen Bewertungen führte.

Leistung des Modell-Evaluators

  • Das Evaluator-Modell erreichte eine durchschnittliche Spearman-Korrelation von ~0,50 gegenüber dem von Menschen annotierten Testset, was mit dem vorherigen VideoScore-Benchmark von Tigerlab übereinstimmt.
  • Die Urheberrechtsrisiko-Dimension schnitt hinsichtlich der Korrelation unterdurchschnittlich ab. Trotz Übersampling der Klassen hat das Modell immer noch Schwierigkeiten, Muster zu erlernen, die mit Grenzfällen oder realen Inhalten verbunden sind.
  • Das Modell neigt dazu, Videos, die echten Aufnahmen stark ähneln, mit [4, 4, 4, 4, 4, 4, 3] zu bewerten, wahrscheinlich aufgrund der Exposition gegenüber ähnlich hochwertigen realen Videos im Trainingsdatensatz.

Zukünftige Verbesserungen

  • Verbesserung der Label-Vielfalt: Erhöhung der Vielfalt der Trainingsdaten, insbesondere für unterrepräsentierte oder mehrdeutige Beispiele, um dem Modell zu helfen, über alle Dimensionen hinweg besser zu generalisieren.
  • Verfeinerung des Bewertungsziels: Übergang zu einem regressionsbasierten Bewertungsansatz (wie im ursprünglichen VideoScore-Modell verwendet) für genaueres und kontinuierliches Feedback.
  • Skalierung der Evaluierungen: Erweiterung der Anzahl der Prompts pro Modell (z.B. von 10 auf 30) für zuverlässigere Benchmarks und reduziertes Sampling-Rauschen.