Research overview

Aperçu

Le benchmark MORPH est conçu pour évaluer la qualité du contenu vidéo généré par IA en mettant l’accent sur la fidélité morphologique, la cohérence temporelle, le risque de droits d’auteur et d’autres attributs visuels et factuels clés. Ce benchmark permet une comparaison objective des modèles de texte-à-vidéo de pointe, offrant à la fois une notation détaillée (par vidéo) et agrégée (par modèle).

Modèle de référence : https://huggingface.co/ChimaAI/MORPH-benchmark
Jeu de données d’entraînement : https://huggingface.co/datasets/ChimaAI/MORPH-dataset

Méthodologie de notation

Chaque vidéo est évaluée selon 7 dimensions d’évaluation :

Qualité visuelle (VQ) : Clarté, résolution, luminosité et couleur
Cohérence temporelle (TC) : Cohérence des objets ou des humains dans la vidéo
Degré dynamique (DD) : Degré de changements dynamiques
Alignement texte-vidéo (TVA) : Alignement entre le prompt textuel et le contenu vidéo
Cohérence factuelle (FC) : Cohérence avec le bon sens et les connaissances factuelles
Fidélité morphologique (MF) : Réalisme, cohérence anatomique et cohérence des figures humaines en mouvement
Risque de droits d’auteur (CR) : Similarité visuelle avec des médias bien connus

Chaque aspect est noté sur une échelle de 1 à 4, 4 représentant la performance optimale.

Formule de calcul du score

Le score final pour une vidéo est calculé comme suit :

Final Score = ( (1/4) * (N_1 / 7) + (2/4) * (N_2 / 7) + (3/4) * (N_3 / 7) + (4/4) * (N_4 / 7) ) * 100

Où Nᵢ est le nombre d’aspects qui ont reçu un score de i (1, 2, 3 ou 4).

Example: Pour une vidéo avec des scores, le calcul serait :

Final Score = ( (1/4) * (1 / 7) + (2/4) * (3 / 7) + (3/4) * (1 / 7) + (4/4) * (2 / 7) ) * 100 = 64.28

Résultats du benchmark

Voir model-comparison.mdx pour des tableaux détaillés des résultats par modèle et par époque.

Résumé de l’évaluation

Kling v1.5 a obtenu le score global le plus élevé dans le benchmark MORPH, avec des performances constamment fortes tant en qualité visuelle qu’en fidélité morphologique.
Sora suit de près, avec des performances très comparables à Kling dans la plupart des dimensions.
Luma Ray2 et Ray2 Flash ont également bien performé, mais ont présenté des problèmes occasionnels de cohérence factuelle (par exemple, des véhicules se déplaçant dans la mauvaise direction sur les autoroutes).
Pixverse v3.5 et v4 ont offert une solide fidélité morphologique malgré un classement légèrement inférieur dans l’ensemble.
Des modèles tels que Minimax Video-01, Mochi v1, et Wan v2.1-1.3B ont fréquemment produit des figures instables, notamment des membres manquants, des mains déformées et des personnages disparaissant entre les images, ce qui a conduit à des scores temporels et morphologiques plus faibles.

Performance de l’évaluateur de modèles

Le modèle d’évaluation a atteint une corrélation de Spearman moyenne d’environ 0,50 par rapport à l’ensemble de test annoté par des humains, conformément au précédent benchmark VideoScore de Tigerlab.
La dimension du risque de droits d’auteur a sous-performé en termes de corrélation. Malgré le suréchantillonnage des classes, le modèle a toujours du mal à apprendre les modèles associés au contenu limite ou du monde réel.
Le modèle a tendance à attribuer [4, 4, 4, 4, 4, 4, 3] aux vidéos qui ressemblent étroitement à des séquences réelles, probablement en raison de l’exposition à des vidéos réelles de qualité similaire dans l’ensemble d’entraînement.

Améliorations futures

Améliorer la diversité des étiquettes : Augmenter la diversité des données d’entraînement, en particulier pour les exemples sous-représentés ou ambigus, pour aider le modèle à mieux généraliser dans toutes les dimensions.
Affiner l’objectif de notation : Passer à une approche de notation basée sur la régression (comme utilisée dans le modèle VideoScore original) pour un retour plus précis et continu.
Évaluations à grande échelle : Augmenter le nombre de prompts par modèle (par exemple, de 10 à 30) pour des benchmarks plus fiables et un bruit d’échantillonnage réduit.

Général

Introduction

Ingénierie de Prompt

Exemples de Sujets

Niveaux d'Apprentissage

Recherche

Research overview

Aperçu

Méthodologie de notation

Formule de calcul du score

Résultats du benchmark

Résumé de l’évaluation

Performance de l’évaluateur de modèles

Améliorations futures

Général

Introduction

Ingénierie de Prompt

Exemples de Sujets

Niveaux d'Apprentissage

Recherche

​Aperçu

​Méthodologie de notation

​Formule de calcul du score

​Résultats du benchmark

​Résumé de l’évaluation

​Performance de l’évaluateur de modèles

​Améliorations futures

Aperçu

Méthodologie de notation

Formule de calcul du score

Résultats du benchmark

Résumé de l’évaluation

Performance de l’évaluateur de modèles

Améliorations futures