Aperçu

Le benchmark MORPH est conçu pour évaluer la qualité du contenu vidéo généré par IA en mettant l’accent sur la fidélité morphologique, la cohérence temporelle, le risque de droits d’auteur et d’autres attributs visuels et factuels clés. Ce benchmark permet une comparaison objective des modèles de texte-à-vidéo de pointe, offrant à la fois une notation détaillée (par vidéo) et agrégée (par modèle).


Méthodologie de notation

Chaque vidéo est évaluée selon 7 dimensions d’évaluation :

  1. Qualité visuelle (VQ) : Clarté, résolution, luminosité et couleur
  2. Cohérence temporelle (TC) : Cohérence des objets ou des humains dans la vidéo
  3. Degré dynamique (DD) : Degré de changements dynamiques
  4. Alignement texte-vidéo (TVA) : Alignement entre le prompt textuel et le contenu vidéo
  5. Cohérence factuelle (FC) : Cohérence avec le bon sens et les connaissances factuelles
  6. Fidélité morphologique (MF) : Réalisme, cohérence anatomique et cohérence des figures humaines en mouvement
  7. Risque de droits d’auteur (CR) : Similarité visuelle avec des médias bien connus

Chaque aspect est noté sur une échelle de 1 à 4, 4 représentant la performance optimale.

Formule de calcul du score

Le score final pour une vidéo est calculé comme suit :

Final Score = ( (1/4) * (N_1 / 7) + (2/4) * (N_2 / 7) + (3/4) * (N_3 / 7) + (4/4) * (N_4 / 7) ) * 100

Où Nᵢ est le nombre d’aspects qui ont reçu un score de i (1, 2, 3 ou 4).

Example: Pour une vidéo avec des scores, le calcul serait :

Final Score = ( (1/4) * (1 / 7) + (2/4) * (3 / 7) + (3/4) * (1 / 7) + (4/4) * (2 / 7) ) * 100 = 64.28

Résultats du benchmark

Voir model-comparison.mdx pour des tableaux détaillés des résultats par modèle et par époque.


Résumé de l’évaluation

  • Kling v1.5 a obtenu le score global le plus élevé dans le benchmark MORPH, avec des performances constamment fortes tant en qualité visuelle qu’en fidélité morphologique.
  • Sora suit de près, avec des performances très comparables à Kling dans la plupart des dimensions.
  • Luma Ray2 et Ray2 Flash ont également bien performé, mais ont présenté des problèmes occasionnels de cohérence factuelle (par exemple, des véhicules se déplaçant dans la mauvaise direction sur les autoroutes).
  • Pixverse v3.5 et v4 ont offert une solide fidélité morphologique malgré un classement légèrement inférieur dans l’ensemble.
  • Des modèles tels que Minimax Video-01, Mochi v1, et Wan v2.1-1.3B ont fréquemment produit des figures instables, notamment des membres manquants, des mains déformées et des personnages disparaissant entre les images, ce qui a conduit à des scores temporels et morphologiques plus faibles.

Performance de l’évaluateur de modèles

  • Le modèle d’évaluation a atteint une corrélation de Spearman moyenne d’environ 0,50 par rapport à l’ensemble de test annoté par des humains, conformément au précédent benchmark VideoScore de Tigerlab.
  • La dimension du risque de droits d’auteur a sous-performé en termes de corrélation. Malgré le suréchantillonnage des classes, le modèle a toujours du mal à apprendre les modèles associés au contenu limite ou du monde réel.
  • Le modèle a tendance à attribuer [4, 4, 4, 4, 4, 4, 3] aux vidéos qui ressemblent étroitement à des séquences réelles, probablement en raison de l’exposition à des vidéos réelles de qualité similaire dans l’ensemble d’entraînement.

Améliorations futures

  • Améliorer la diversité des étiquettes : Augmenter la diversité des données d’entraînement, en particulier pour les exemples sous-représentés ou ambigus, pour aider le modèle à mieux généraliser dans toutes les dimensions.
  • Affiner l’objectif de notation : Passer à une approche de notation basée sur la régression (comme utilisée dans le modèle VideoScore original) pour un retour plus précis et continu.
  • Évaluations à grande échelle : Augmenter le nombre de prompts par modèle (par exemple, de 10 à 30) pour des benchmarks plus fiables et un bruit d’échantillonnage réduit.