Research overview

Visão Geral

O benchmark MORPH é projetado para avaliar a qualidade do conteúdo de vídeo gerado por IA com foco na fidelidade morfológica, consistência temporal, risco de direitos autorais e outros atributos visuais e factuais importantes. Este benchmark permite a comparação objetiva de modelos de texto para vídeo de ponta, oferecendo pontuação detalhada (por vídeo) e agregada (por modelo).

Modelo de benchmark: https://huggingface.co/ChimaAI/MORPH-benchmark
Conjunto de dados de treinamento: https://huggingface.co/datasets/ChimaAI/MORPH-dataset

Metodologia de Pontuação

Cada vídeo é avaliado em 7 dimensões de avaliação:

Qualidade Visual (VQ): Clareza, resolução, brilho e cor
Consistência Temporal (TC): Consistência de objetos ou humanos no vídeo
Grau Dinâmico (DD): Grau de mudanças dinâmicas
Alinhamento Texto-Vídeo (TVA): Alinhamento entre o prompt de texto e o conteúdo do vídeo
Consistência Factual (FC): Consistência com senso comum e conhecimento factual
Fidelidade Morfológica (MF): Realismo, consistência anatômica e coerência de figuras humanas durante o movimento
Risco de Direitos Autorais (CR): Similaridade visual com mídia conhecida

Cada aspecto é avaliado em uma escala de 1–4, com 4 representando desempenho ideal.

Fórmula de Cálculo de Pontuação

A pontuação final para um vídeo é calculada como:

Final Score = ( (1/4) * (N_1 / 7) + (2/4) * (N_2 / 7) + (3/4) * (N_3 / 7) + (4/4) * (N_4 / 7) ) * 100

Onde Nᵢ é o número de aspectos que receberam uma pontuação de i (1, 2, 3 ou 4).

Example: Para um vídeo com pontuações, o cálculo seria:

Final Score = ( (1/4) * (1 / 7) + (2/4) * (3 / 7) + (3/4) * (1 / 7) + (4/4) * (2 / 7) ) * 100 = 64.28

Resultados do Benchmark

Veja model-comparison.mdx para tabelas detalhadas de resultados por modelo e por época.

Resumo da Avaliação

Kling v1.5 tem a maior pontuação geral no benchmark MORPH, com desempenho consistentemente forte tanto em qualidade visual quanto em fidelidade morfológica.
Sora segue de perto, com desempenho altamente comparável ao Kling na maioria das dimensões.
Luma Ray2 e Ray2 Flash modelos também tiveram bom desempenho, mas apresentaram problemas ocasionais com consistência factual (por exemplo, veículos se movendo na direção errada em rodovias).
Pixverse v3.5 e v4 entregaram sólida fidelidade morfológica apesar de classificação geral ligeiramente inferior.
Modelos como Minimax Video-01, Mochi v1, e Wan v2.1-1.3B frequentemente produziram figuras instáveis, incluindo membros ausentes, mãos distorcidas e personagens desaparecendo entre quadros, levando a pontuações temporais e morfológicas mais baixas.

Desempenho do Modelo Avaliador

O modelo avaliador alcançou uma correlação média de Spearman de ~0,50 contra o conjunto de teste anotado por humanos, em linha com o benchmark VideoScore anterior do Tigerlab.
A dimensão de risco de direitos autorais teve desempenho inferior em termos de correlação. Apesar da sobreamostragem de classes, o modelo ainda tem dificuldades para aprender padrões associados a conteúdo limítrofe ou do mundo real.
O modelo tende a atribuir [4, 4, 4, 4, 4, 4, 3] a vídeos que se assemelham muito a filmagens reais, provavelmente devido à exposição a vídeos reais de qualidade semelhante no conjunto de treinamento.

Melhorias Futuras

Melhorar a diversidade de rótulos: Aumentar a diversidade dos dados de treinamento, especialmente para exemplos sub-representados ou ambíguos, para ajudar o modelo a generalizar melhor em todas as dimensões.
Refinar o objetivo de pontuação: Transição para uma abordagem de pontuação baseada em regressão (como usado no modelo VideoScore original) para feedback mais preciso e contínuo.
Ampliar avaliações: Expandir o número de prompts por modelo (por exemplo, de 10 para 30) para benchmarks mais confiáveis e redução de ruído de amostragem.

Geral

Introdução

Engenharia de Prompts

Tópicos de Exemplo

Níveis de Aprendizado

Pesquisa

Research overview

Visão Geral

Metodologia de Pontuação

Fórmula de Cálculo de Pontuação

Resultados do Benchmark

Resumo da Avaliação

Desempenho do Modelo Avaliador

Melhorias Futuras

Geral

Introdução

Engenharia de Prompts

Tópicos de Exemplo

Níveis de Aprendizado

Pesquisa

​Visão Geral

​Metodologia de Pontuação

​Fórmula de Cálculo de Pontuação

​Resultados do Benchmark

​Resumo da Avaliação

​Desempenho do Modelo Avaliador

​Melhorias Futuras

Visão Geral

Metodologia de Pontuação

Fórmula de Cálculo de Pontuação

Resultados do Benchmark

Resumo da Avaliação

Desempenho do Modelo Avaliador

Melhorias Futuras