Visão Geral

O benchmark MORPH é projetado para avaliar a qualidade do conteúdo de vídeo gerado por IA com foco na fidelidade morfológica, consistência temporal, risco de direitos autorais e outros atributos visuais e factuais importantes. Este benchmark permite a comparação objetiva de modelos de texto para vídeo de ponta, oferecendo pontuação detalhada (por vídeo) e agregada (por modelo).


Metodologia de Pontuação

Cada vídeo é avaliado em 7 dimensões de avaliação:

  1. Qualidade Visual (VQ): Clareza, resolução, brilho e cor
  2. Consistência Temporal (TC): Consistência de objetos ou humanos no vídeo
  3. Grau Dinâmico (DD): Grau de mudanças dinâmicas
  4. Alinhamento Texto-Vídeo (TVA): Alinhamento entre o prompt de texto e o conteúdo do vídeo
  5. Consistência Factual (FC): Consistência com senso comum e conhecimento factual
  6. Fidelidade Morfológica (MF): Realismo, consistência anatômica e coerência de figuras humanas durante o movimento
  7. Risco de Direitos Autorais (CR): Similaridade visual com mídia conhecida

Cada aspecto é avaliado em uma escala de 1–4, com 4 representando desempenho ideal.

Fórmula de Cálculo de Pontuação

A pontuação final para um vídeo é calculada como:

Final Score = ( (1/4) * (N_1 / 7) + (2/4) * (N_2 / 7) + (3/4) * (N_3 / 7) + (4/4) * (N_4 / 7) ) * 100

Onde Nᵢ é o número de aspectos que receberam uma pontuação de i (1, 2, 3 ou 4).

Example: Para um vídeo com pontuações, o cálculo seria:

Final Score = ( (1/4) * (1 / 7) + (2/4) * (3 / 7) + (3/4) * (1 / 7) + (4/4) * (2 / 7) ) * 100 = 64.28

Resultados do Benchmark

Veja model-comparison.mdx para tabelas detalhadas de resultados por modelo e por época.


Resumo da Avaliação

  • Kling v1.5 tem a maior pontuação geral no benchmark MORPH, com desempenho consistentemente forte tanto em qualidade visual quanto em fidelidade morfológica.
  • Sora segue de perto, com desempenho altamente comparável ao Kling na maioria das dimensões.
  • Luma Ray2 e Ray2 Flash modelos também tiveram bom desempenho, mas apresentaram problemas ocasionais com consistência factual (por exemplo, veículos se movendo na direção errada em rodovias).
  • Pixverse v3.5 e v4 entregaram sólida fidelidade morfológica apesar de classificação geral ligeiramente inferior.
  • Modelos como Minimax Video-01, Mochi v1, e Wan v2.1-1.3B frequentemente produziram figuras instáveis, incluindo membros ausentes, mãos distorcidas e personagens desaparecendo entre quadros, levando a pontuações temporais e morfológicas mais baixas.

Desempenho do Modelo Avaliador

  • O modelo avaliador alcançou uma correlação média de Spearman de ~0,50 contra o conjunto de teste anotado por humanos, em linha com o benchmark VideoScore anterior do Tigerlab.
  • A dimensão de risco de direitos autorais teve desempenho inferior em termos de correlação. Apesar da sobreamostragem de classes, o modelo ainda tem dificuldades para aprender padrões associados a conteúdo limítrofe ou do mundo real.
  • O modelo tende a atribuir [4, 4, 4, 4, 4, 4, 3] a vídeos que se assemelham muito a filmagens reais, provavelmente devido à exposição a vídeos reais de qualidade semelhante no conjunto de treinamento.

Melhorias Futuras

  • Melhorar a diversidade de rótulos: Aumentar a diversidade dos dados de treinamento, especialmente para exemplos sub-representados ou ambíguos, para ajudar o modelo a generalizar melhor em todas as dimensões.
  • Refinar o objetivo de pontuação: Transição para uma abordagem de pontuação baseada em regressão (como usado no modelo VideoScore original) para feedback mais preciso e contínuo.
  • Ampliar avaliações: Expandir o número de prompts por modelo (por exemplo, de 10 para 30) para benchmarks mais confiáveis e redução de ruído de amostragem.