Panoramica

Il benchmark MORPH è progettato per valutare la qualità dei contenuti video generati dall’IA con un focus sulla fedeltà morfologica, coerenza temporale, rischio di copyright e altri attributi visivi e fattuali chiave. Questo benchmark consente un confronto oggettivo dei modelli text-to-video all’avanguardia, offrendo punteggi sia dettagliati (per video) che aggregati (per modello).


Metodologia di Punteggio

Ogni video viene valutato su 7 dimensioni di valutazione:

  1. Qualità Visiva (VQ): Chiarezza, risoluzione, luminosità e colore
  2. Coerenza Temporale (TC): Coerenza degli oggetti o delle persone nel video
  3. Grado Dinamico (DD): Grado di cambiamenti dinamici
  4. Allineamento Testo-Video (TVA): Allineamento tra il prompt testuale e il contenuto del video
  5. Coerenza Fattuale (FC): Coerenza con il buon senso e le conoscenze fattuali
  6. Fedeltà Morfologica (MF): Realismo, coerenza anatomica e coerenza delle figure umane durante il movimento
  7. Rischio di Copyright (CR): Somiglianza visiva con media ben noti

Ogni aspetto viene valutato su una scala da 1 a 4, dove 4 rappresenta la prestazione ottimale.

Formula di Calcolo del Punteggio

Il punteggio finale per un video è calcolato come:

Final Score = ( (1/4) * (N_1 / 7) + (2/4) * (N_2 / 7) + (3/4) * (N_3 / 7) + (4/4) * (N_4 / 7) ) * 100

Dove Nᵢ è il numero di aspetti che hanno ricevuto un punteggio di i (1, 2, 3 o 4).

Example: Per un video con punteggi, il calcolo sarebbe:

Final Score = ( (1/4) * (1 / 7) + (2/4) * (3 / 7) + (3/4) * (1 / 7) + (4/4) * (2 / 7) ) * 100 = 64.28

Risultati del Benchmark

Vedi model-comparison.mdx per tabelle dettagliate dei risultati per modello e per epoca.


Riepilogo della Valutazione

  • Kling v1.5 ha il punteggio complessivo più alto nel benchmark MORPH, con prestazioni costantemente elevate sia nella qualità visiva che nella fedeltà morfologica.
  • Sora segue da vicino, con prestazioni altamente paragonabili a Kling nella maggior parte delle dimensioni.
  • Luma Ray2 e Ray2 Flash hanno anche ottenuto buoni risultati, ma hanno mostrato occasionali problemi di coerenza fattuale (ad esempio, veicoli che si muovono nella direzione sbagliata sulle autostrade).
  • Pixverse v3.5 e v4 hanno fornito una solida fedeltà morfologica nonostante si classifichino leggermente più in basso nel complesso.
  • Modelli come Minimax Video-01, Mochi v1, e Wan v2.1-1.3B hanno frequentemente prodotto figure instabili, inclusi arti mancanti, mani distorte e personaggi che scompaiono tra i fotogrammi, portando a punteggi temporali e morfologici più bassi.

Prestazioni del Modello Valutatore

  • Il modello valutatore ha raggiunto una correlazione di Spearman media di ~0.50 rispetto al set di test annotato dagli umani, in linea con il precedente benchmark VideoScore di Tigerlab.
  • La dimensione del rischio di copyright ha avuto prestazioni inferiori in termini di correlazione. Nonostante il sovracampionamento delle classi, il modello fatica ancora ad apprendere modelli associati a contenuti borderline o del mondo reale.
  • Il modello tende ad assegnare [4, 4, 4, 4, 4, 4, 3] a video che assomigliano molto a filmati reali, probabilmente a causa dell’esposizione a video reali di qualità simile nel set di addestramento.

Miglioramenti Futuri

  • Migliorare la diversità delle etichette: Aumentare la diversità dei dati di addestramento, specialmente per esempi sottorappresentati o ambigui, per aiutare il modello a generalizzare meglio in tutte le dimensioni.
  • Perfezionare l’obiettivo di punteggio: Passare a un approccio di punteggio basato sulla regressione (come utilizzato nel modello VideoScore originale) per un feedback più accurato e continuo.
  • Ampliare le valutazioni: Espandere il numero di prompt per modello (ad esempio, da 10 a 30) per benchmark più affidabili e ridotto rumore di campionamento.