Research overview
Überblick
Der MORPH-Benchmark wurde entwickelt, um die Qualität von KI-generierten Videoinhalten zu bewerten, mit Fokus auf morphologische Genauigkeit, zeitliche Konsistenz, Urheberrechtsrisiko und andere wichtige visuelle und faktische Attribute. Dieser Benchmark ermöglicht einen objektiven Vergleich modernster Text-zu-Video-Modelle und bietet sowohl detaillierte (pro Video) als auch aggregierte (pro Modell) Bewertungen.
- Benchmark-Modell: https://huggingface.co/ChimaAI/MORPH-benchmark
- Trainingsdatensatz: https://huggingface.co/datasets/ChimaAI/MORPH-dataset
Bewertungsmethodik
Jedes Video wird anhand von 7 Evaluierungsdimensionen bewertet:
- Visuelle Qualität (VQ): Klarheit, Auflösung, Helligkeit und Farbe
- Zeitliche Konsistenz (TC): Konsistenz von Objekten oder Menschen im Video
- Dynamikgrad (DD): Grad der dynamischen Veränderungen
- Text-zu-Video-Übereinstimmung (TVA): Übereinstimmung zwischen dem Text-Prompt und dem Videoinhalt
- Faktische Konsistenz (FC): Übereinstimmung mit gesundem Menschenverstand und faktischem Wissen
- Morphologische Genauigkeit (MF): Realismus, anatomische Konsistenz und Kohärenz menschlicher Figuren während der Bewegung
- Urheberrechtsrisiko (CR): Visuelle Ähnlichkeit zu bekannten Medien
Jeder Aspekt wird auf einer Skala von 1–4 bewertet, wobei 4 die optimale Leistung darstellt.
Formel zur Punkteberechnung
Die Endpunktzahl für ein Video wird wie folgt berechnet:
Wobei Nᵢ die Anzahl der Aspekte ist, die eine Bewertung von i (1, 2, 3 oder 4) erhalten haben.
Example: Für ein Video mit Bewertungen würde die Berechnung lauten:
Benchmark-Ergebnisse
Siehe model-comparison.mdx für detaillierte Tabellen mit Ergebnissen pro Modell und pro Epoche.
Evaluierungszusammenfassung
- Kling v1.5 hat die höchste Gesamtpunktzahl im MORPH-Benchmark, mit durchgehend starker Leistung sowohl bei visueller Qualität als auch bei morphologischer Genauigkeit.
- Sora folgt dicht dahinter, mit einer Leistung, die in den meisten Dimensionen mit Kling vergleichbar ist.
- Luma Ray2 und Ray2 Flash Modelle schnitten ebenfalls gut ab, zeigten jedoch gelegentlich Probleme mit faktischer Konsistenz (z.B. Fahrzeuge, die sich in die falsche Richtung auf Autobahnen bewegen).
- Pixverse v3.5 und v4 lieferten solide morphologische Genauigkeit, obwohl sie insgesamt etwas niedriger eingestuft wurden.
- Modelle wie Minimax Video-01, Mochi v1, und Wan v2.1-1.3B produzierten häufig instabile Figuren, einschließlich fehlender Gliedmaßen, verzerrter Hände und über Frames verschwindender Charaktere, was zu niedrigeren zeitlichen und morphologischen Bewertungen führte.
Leistung des Modell-Evaluators
- Das Evaluator-Modell erreichte eine durchschnittliche Spearman-Korrelation von ~0,50 gegenüber dem von Menschen annotierten Testset, was mit dem vorherigen VideoScore-Benchmark von Tigerlab übereinstimmt.
- Die Urheberrechtsrisiko-Dimension schnitt hinsichtlich der Korrelation unterdurchschnittlich ab. Trotz Übersampling der Klassen hat das Modell immer noch Schwierigkeiten, Muster zu erlernen, die mit Grenzfällen oder realen Inhalten verbunden sind.
- Das Modell neigt dazu, Videos, die echten Aufnahmen stark ähneln, mit [4, 4, 4, 4, 4, 4, 3] zu bewerten, wahrscheinlich aufgrund der Exposition gegenüber ähnlich hochwertigen realen Videos im Trainingsdatensatz.
Zukünftige Verbesserungen
- Verbesserung der Label-Vielfalt: Erhöhung der Vielfalt der Trainingsdaten, insbesondere für unterrepräsentierte oder mehrdeutige Beispiele, um dem Modell zu helfen, über alle Dimensionen hinweg besser zu generalisieren.
- Verfeinerung des Bewertungsziels: Übergang zu einem regressionsbasierten Bewertungsansatz (wie im ursprünglichen VideoScore-Modell verwendet) für genaueres und kontinuierliches Feedback.
- Skalierung der Evaluierungen: Erweiterung der Anzahl der Prompts pro Modell (z.B. von 10 auf 30) für zuverlässigere Benchmarks und reduziertes Sampling-Rauschen.