Research overview

Visión General

El benchmark MORPH está diseñado para evaluar la calidad del contenido de video generado por IA con un enfoque en la fidelidad morfológica, consistencia temporal, riesgo de derechos de autor y otros atributos visuales y factuales clave. Este benchmark permite la comparación objetiva de modelos de texto a video de vanguardia, ofreciendo puntuación tanto detallada (por video) como agregada (por modelo).

Modelo de referencia: https://huggingface.co/ChimaAI/MORPH-benchmark
Conjunto de datos de entrenamiento: https://huggingface.co/datasets/ChimaAI/MORPH-dataset

Metodología de Puntuación

Cada video es evaluado en 7 dimensiones de evaluación:

Calidad Visual (VQ): Claridad, resolución, brillo y color
Consistencia Temporal (TC): Consistencia de objetos o humanos en el video
Grado Dinámico (DD): Grado de cambios dinámicos
Alineación Texto-Video (TVA): Alineación entre el prompt de texto y el contenido del video
Consistencia Factual (FC): Consistencia con el sentido común y conocimiento factual
Fidelidad Morfológica (MF): Realismo, consistencia anatómica y coherencia de figuras humanas a través del movimiento
Riesgo de Derechos de Autor (CR): Similitud visual con medios conocidos

Cada aspecto se califica en una escala de 1-4, donde 4 representa un rendimiento óptimo.

Fórmula de Cálculo de Puntuación

La puntuación final para un video se calcula como:

Final Score = ( (1/4) * (N_1 / 7) + (2/4) * (N_2 / 7) + (3/4) * (N_3 / 7) + (4/4) * (N_4 / 7) ) * 100

Donde Nᵢ es el número de aspectos que recibieron una puntuación de i (1, 2, 3 o 4).

Example: Para un video con puntuaciones, el cálculo sería:

Final Score = ( (1/4) * (1 / 7) + (2/4) * (3 / 7) + (3/4) * (1 / 7) + (4/4) * (2 / 7) ) * 100 = 64.28

Resultados del Benchmark

Ver model-comparison.mdx para tablas detalladas de resultados por modelo y por época.

Resumen de Evaluación

Kling v1.5 tiene la puntuación general más alta en el benchmark MORPH, con un rendimiento consistentemente fuerte tanto en calidad visual como en fidelidad morfológica.
Sora sigue de cerca, con un rendimiento muy comparable al de Kling en la mayoría de las dimensiones.
Luma Ray2 y Ray2 Flash también tuvieron un buen rendimiento, pero mostraron problemas ocasionales con la consistencia factual (por ejemplo, vehículos moviéndose en la dirección incorrecta en las autopistas).
Pixverse v3.5 y v4 ofrecieron una sólida fidelidad morfológica a pesar de clasificarse ligeramente más bajo en general.
Modelos como Minimax Video-01, Mochi v1, y Wan v2.1-1.3B frecuentemente produjeron figuras inestables, incluyendo extremidades faltantes, manos distorsionadas y personajes que desaparecen entre fotogramas, lo que llevó a puntuaciones temporales y morfológicas más bajas.

Rendimiento del Modelo Evaluador

El modelo evaluador logró una correlación de Spearman promedio de ~0.50 contra el conjunto de prueba anotado por humanos, en línea con el punto de referencia anterior de VideoScore de Tigerlab.
La dimensión de riesgo de derechos de autor tuvo un rendimiento inferior en términos de correlación. A pesar del sobremuestreo de clases, el modelo todavía tiene dificultades para aprender patrones asociados con contenido limítrofe o del mundo real.
El modelo tiende a asignar [4, 4, 4, 4, 4, 4, 3] a videos que se asemejan mucho a metraje real, probablemente debido a la exposición a videos reales de alta calidad similares en el conjunto de entrenamiento.

Mejoras Futuras

Mejorar la diversidad de etiquetas: Aumentar la diversidad de datos de entrenamiento, especialmente para ejemplos subrepresentados o ambiguos, para ayudar al modelo a generalizar mejor en todas las dimensiones.
Refinar el objetivo de puntuación: Transición a un enfoque de puntuación basado en regresión (como se usa en el modelo original de VideoScore) para una retroalimentación más precisa y continua.
Escalar evaluaciones: Ampliar el número de prompts por modelo (por ejemplo, de 10 a 30) para obtener puntos de referencia más confiables y reducir el ruido de muestreo.

General

Introducción

Ingeniería de Prompts

Temas de Ejemplo

Niveles de Aprendizaje

Investigación

Research overview

Visión General

Metodología de Puntuación

Fórmula de Cálculo de Puntuación

Resultados del Benchmark

Resumen de Evaluación

Rendimiento del Modelo Evaluador

Mejoras Futuras

General

Introducción

Ingeniería de Prompts

Temas de Ejemplo

Niveles de Aprendizaje

Investigación

​Visión General

​Metodología de Puntuación

​Fórmula de Cálculo de Puntuación

​Resultados del Benchmark

​Resumen de Evaluación

​Rendimiento del Modelo Evaluador

​Mejoras Futuras

Visión General

Metodología de Puntuación

Fórmula de Cálculo de Puntuación

Resultados del Benchmark

Resumen de Evaluación

Rendimiento del Modelo Evaluador

Mejoras Futuras