Research overview
Panoramica
Il benchmark MORPH è progettato per valutare la qualità dei contenuti video generati dall’IA con un focus sulla fedeltà morfologica, coerenza temporale, rischio di copyright e altri attributi visivi e fattuali chiave. Questo benchmark consente un confronto oggettivo dei modelli text-to-video all’avanguardia, offrendo punteggi sia dettagliati (per video) che aggregati (per modello).
- Modello di benchmark: https://huggingface.co/ChimaAI/MORPH-benchmark
- Dataset di addestramento: https://huggingface.co/datasets/ChimaAI/MORPH-dataset
Metodologia di Punteggio
Ogni video viene valutato su 7 dimensioni di valutazione:
- Qualità Visiva (VQ): Chiarezza, risoluzione, luminosità e colore
- Coerenza Temporale (TC): Coerenza degli oggetti o delle persone nel video
- Grado Dinamico (DD): Grado di cambiamenti dinamici
- Allineamento Testo-Video (TVA): Allineamento tra il prompt testuale e il contenuto del video
- Coerenza Fattuale (FC): Coerenza con il buon senso e le conoscenze fattuali
- Fedeltà Morfologica (MF): Realismo, coerenza anatomica e coerenza delle figure umane durante il movimento
- Rischio di Copyright (CR): Somiglianza visiva con media ben noti
Ogni aspetto viene valutato su una scala da 1 a 4, dove 4 rappresenta la prestazione ottimale.
Formula di Calcolo del Punteggio
Il punteggio finale per un video è calcolato come:
Dove Nᵢ è il numero di aspetti che hanno ricevuto un punteggio di i (1, 2, 3 o 4).
Example: Per un video con punteggi, il calcolo sarebbe:
Risultati del Benchmark
Vedi model-comparison.mdx per tabelle dettagliate dei risultati per modello e per epoca.
Riepilogo della Valutazione
- Kling v1.5 ha il punteggio complessivo più alto nel benchmark MORPH, con prestazioni costantemente elevate sia nella qualità visiva che nella fedeltà morfologica.
- Sora segue da vicino, con prestazioni altamente paragonabili a Kling nella maggior parte delle dimensioni.
- Luma Ray2 e Ray2 Flash hanno anche ottenuto buoni risultati, ma hanno mostrato occasionali problemi di coerenza fattuale (ad esempio, veicoli che si muovono nella direzione sbagliata sulle autostrade).
- Pixverse v3.5 e v4 hanno fornito una solida fedeltà morfologica nonostante si classifichino leggermente più in basso nel complesso.
- Modelli come Minimax Video-01, Mochi v1, e Wan v2.1-1.3B hanno frequentemente prodotto figure instabili, inclusi arti mancanti, mani distorte e personaggi che scompaiono tra i fotogrammi, portando a punteggi temporali e morfologici più bassi.
Prestazioni del Modello Valutatore
- Il modello valutatore ha raggiunto una correlazione di Spearman media di ~0.50 rispetto al set di test annotato dagli umani, in linea con il precedente benchmark VideoScore di Tigerlab.
- La dimensione del rischio di copyright ha avuto prestazioni inferiori in termini di correlazione. Nonostante il sovracampionamento delle classi, il modello fatica ancora ad apprendere modelli associati a contenuti borderline o del mondo reale.
- Il modello tende ad assegnare [4, 4, 4, 4, 4, 4, 3] a video che assomigliano molto a filmati reali, probabilmente a causa dell’esposizione a video reali di qualità simile nel set di addestramento.
Miglioramenti Futuri
- Migliorare la diversità delle etichette: Aumentare la diversità dei dati di addestramento, specialmente per esempi sottorappresentati o ambigui, per aiutare il modello a generalizzare meglio in tutte le dimensioni.
- Perfezionare l’obiettivo di punteggio: Passare a un approccio di punteggio basato sulla regressione (come utilizzato nel modello VideoScore originale) per un feedback più accurato e continuo.
- Ampliare le valutazioni: Espandere il numero di prompt per modello (ad esempio, da 10 a 30) per benchmark più affidabili e ridotto rumore di campionamento.