Visión General

El benchmark MORPH está diseñado para evaluar la calidad del contenido de video generado por IA con un enfoque en la fidelidad morfológica, consistencia temporal, riesgo de derechos de autor y otros atributos visuales y factuales clave. Este benchmark permite la comparación objetiva de modelos de texto a video de vanguardia, ofreciendo puntuación tanto detallada (por video) como agregada (por modelo).


Metodología de Puntuación

Cada video es evaluado en 7 dimensiones de evaluación:

  1. Calidad Visual (VQ): Claridad, resolución, brillo y color
  2. Consistencia Temporal (TC): Consistencia de objetos o humanos en el video
  3. Grado Dinámico (DD): Grado de cambios dinámicos
  4. Alineación Texto-Video (TVA): Alineación entre el prompt de texto y el contenido del video
  5. Consistencia Factual (FC): Consistencia con el sentido común y conocimiento factual
  6. Fidelidad Morfológica (MF): Realismo, consistencia anatómica y coherencia de figuras humanas a través del movimiento
  7. Riesgo de Derechos de Autor (CR): Similitud visual con medios conocidos

Cada aspecto se califica en una escala de 1-4, donde 4 representa un rendimiento óptimo.

Fórmula de Cálculo de Puntuación

La puntuación final para un video se calcula como:

Final Score = ( (1/4) * (N_1 / 7) + (2/4) * (N_2 / 7) + (3/4) * (N_3 / 7) + (4/4) * (N_4 / 7) ) * 100

Donde Nᵢ es el número de aspectos que recibieron una puntuación de i (1, 2, 3 o 4).

Example: Para un video con puntuaciones, el cálculo sería:

Final Score = ( (1/4) * (1 / 7) + (2/4) * (3 / 7) + (3/4) * (1 / 7) + (4/4) * (2 / 7) ) * 100 = 64.28

Resultados del Benchmark

Ver model-comparison.mdx para tablas detalladas de resultados por modelo y por época.


Resumen de Evaluación

  • Kling v1.5 tiene la puntuación general más alta en el benchmark MORPH, con un rendimiento consistentemente fuerte tanto en calidad visual como en fidelidad morfológica.
  • Sora sigue de cerca, con un rendimiento muy comparable al de Kling en la mayoría de las dimensiones.
  • Luma Ray2 y Ray2 Flash también tuvieron un buen rendimiento, pero mostraron problemas ocasionales con la consistencia factual (por ejemplo, vehículos moviéndose en la dirección incorrecta en las autopistas).
  • Pixverse v3.5 y v4 ofrecieron una sólida fidelidad morfológica a pesar de clasificarse ligeramente más bajo en general.
  • Modelos como Minimax Video-01, Mochi v1, y Wan v2.1-1.3B frecuentemente produjeron figuras inestables, incluyendo extremidades faltantes, manos distorsionadas y personajes que desaparecen entre fotogramas, lo que llevó a puntuaciones temporales y morfológicas más bajas.

Rendimiento del Modelo Evaluador

  • El modelo evaluador logró una correlación de Spearman promedio de ~0.50 contra el conjunto de prueba anotado por humanos, en línea con el punto de referencia anterior de VideoScore de Tigerlab.
  • La dimensión de riesgo de derechos de autor tuvo un rendimiento inferior en términos de correlación. A pesar del sobremuestreo de clases, el modelo todavía tiene dificultades para aprender patrones asociados con contenido limítrofe o del mundo real.
  • El modelo tiende a asignar [4, 4, 4, 4, 4, 4, 3] a videos que se asemejan mucho a metraje real, probablemente debido a la exposición a videos reales de alta calidad similares en el conjunto de entrenamiento.

Mejoras Futuras

  • Mejorar la diversidad de etiquetas: Aumentar la diversidad de datos de entrenamiento, especialmente para ejemplos subrepresentados o ambiguos, para ayudar al modelo a generalizar mejor en todas las dimensiones.
  • Refinar el objetivo de puntuación: Transición a un enfoque de puntuación basado en regresión (como se usa en el modelo original de VideoScore) para una retroalimentación más precisa y continua.
  • Escalar evaluaciones: Ampliar el número de prompts por modelo (por ejemplo, de 10 a 30) para obtener puntos de referencia más confiables y reducir el ruido de muestreo.