Research overview
Visão Geral
O benchmark MORPH é projetado para avaliar a qualidade do conteúdo de vídeo gerado por IA com foco na fidelidade morfológica, consistência temporal, risco de direitos autorais e outros atributos visuais e factuais importantes. Este benchmark permite a comparação objetiva de modelos de texto para vídeo de ponta, oferecendo pontuação detalhada (por vídeo) e agregada (por modelo).
- Modelo de benchmark: https://huggingface.co/ChimaAI/MORPH-benchmark
- Conjunto de dados de treinamento: https://huggingface.co/datasets/ChimaAI/MORPH-dataset
Metodologia de Pontuação
Cada vídeo é avaliado em 7 dimensões de avaliação:
- Qualidade Visual (VQ): Clareza, resolução, brilho e cor
- Consistência Temporal (TC): Consistência de objetos ou humanos no vídeo
- Grau Dinâmico (DD): Grau de mudanças dinâmicas
- Alinhamento Texto-Vídeo (TVA): Alinhamento entre o prompt de texto e o conteúdo do vídeo
- Consistência Factual (FC): Consistência com senso comum e conhecimento factual
- Fidelidade Morfológica (MF): Realismo, consistência anatômica e coerência de figuras humanas durante o movimento
- Risco de Direitos Autorais (CR): Similaridade visual com mídia conhecida
Cada aspecto é avaliado em uma escala de 1–4, com 4 representando desempenho ideal.
Fórmula de Cálculo de Pontuação
A pontuação final para um vídeo é calculada como:
Onde Nᵢ é o número de aspectos que receberam uma pontuação de i (1, 2, 3 ou 4).
Example: Para um vídeo com pontuações, o cálculo seria:
Resultados do Benchmark
Veja model-comparison.mdx para tabelas detalhadas de resultados por modelo e por época.
Resumo da Avaliação
- Kling v1.5 tem a maior pontuação geral no benchmark MORPH, com desempenho consistentemente forte tanto em qualidade visual quanto em fidelidade morfológica.
- Sora segue de perto, com desempenho altamente comparável ao Kling na maioria das dimensões.
- Luma Ray2 e Ray2 Flash modelos também tiveram bom desempenho, mas apresentaram problemas ocasionais com consistência factual (por exemplo, veículos se movendo na direção errada em rodovias).
- Pixverse v3.5 e v4 entregaram sólida fidelidade morfológica apesar de classificação geral ligeiramente inferior.
- Modelos como Minimax Video-01, Mochi v1, e Wan v2.1-1.3B frequentemente produziram figuras instáveis, incluindo membros ausentes, mãos distorcidas e personagens desaparecendo entre quadros, levando a pontuações temporais e morfológicas mais baixas.
Desempenho do Modelo Avaliador
- O modelo avaliador alcançou uma correlação média de Spearman de ~0,50 contra o conjunto de teste anotado por humanos, em linha com o benchmark VideoScore anterior do Tigerlab.
- A dimensão de risco de direitos autorais teve desempenho inferior em termos de correlação. Apesar da sobreamostragem de classes, o modelo ainda tem dificuldades para aprender padrões associados a conteúdo limítrofe ou do mundo real.
- O modelo tende a atribuir [4, 4, 4, 4, 4, 4, 3] a vídeos que se assemelham muito a filmagens reais, provavelmente devido à exposição a vídeos reais de qualidade semelhante no conjunto de treinamento.
Melhorias Futuras
- Melhorar a diversidade de rótulos: Aumentar a diversidade dos dados de treinamento, especialmente para exemplos sub-representados ou ambíguos, para ajudar o modelo a generalizar melhor em todas as dimensões.
- Refinar o objetivo de pontuação: Transição para uma abordagem de pontuação baseada em regressão (como usado no modelo VideoScore original) para feedback mais preciso e contínuo.
- Ampliar avaliações: Expandir o número de prompts por modelo (por exemplo, de 10 para 30) para benchmarks mais confiáveis e redução de ruído de amostragem.