Research overview

Panoramica

Il benchmark MORPH è progettato per valutare la qualità dei contenuti video generati dall’IA con un focus sulla fedeltà morfologica, coerenza temporale, rischio di copyright e altri attributi visivi e fattuali chiave. Questo benchmark consente un confronto oggettivo dei modelli text-to-video all’avanguardia, offrendo punteggi sia dettagliati (per video) che aggregati (per modello).

Modello di benchmark: https://huggingface.co/ChimaAI/MORPH-benchmark
Dataset di addestramento: https://huggingface.co/datasets/ChimaAI/MORPH-dataset

Metodologia di Punteggio

Ogni video viene valutato su 7 dimensioni di valutazione:

Qualità Visiva (VQ): Chiarezza, risoluzione, luminosità e colore
Coerenza Temporale (TC): Coerenza degli oggetti o delle persone nel video
Grado Dinamico (DD): Grado di cambiamenti dinamici
Allineamento Testo-Video (TVA): Allineamento tra il prompt testuale e il contenuto del video
Coerenza Fattuale (FC): Coerenza con il buon senso e le conoscenze fattuali
Fedeltà Morfologica (MF): Realismo, coerenza anatomica e coerenza delle figure umane durante il movimento
Rischio di Copyright (CR): Somiglianza visiva con media ben noti

Ogni aspetto viene valutato su una scala da 1 a 4, dove 4 rappresenta la prestazione ottimale.

Formula di Calcolo del Punteggio

Il punteggio finale per un video è calcolato come:

Final Score = ( (1/4) * (N_1 / 7) + (2/4) * (N_2 / 7) + (3/4) * (N_3 / 7) + (4/4) * (N_4 / 7) ) * 100

Dove Nᵢ è il numero di aspetti che hanno ricevuto un punteggio di i (1, 2, 3 o 4).

Example: Per un video con punteggi, il calcolo sarebbe:

Final Score = ( (1/4) * (1 / 7) + (2/4) * (3 / 7) + (3/4) * (1 / 7) + (4/4) * (2 / 7) ) * 100 = 64.28

Risultati del Benchmark

Vedi model-comparison.mdx per tabelle dettagliate dei risultati per modello e per epoca.

Riepilogo della Valutazione

Kling v1.5 ha il punteggio complessivo più alto nel benchmark MORPH, con prestazioni costantemente elevate sia nella qualità visiva che nella fedeltà morfologica.
Sora segue da vicino, con prestazioni altamente paragonabili a Kling nella maggior parte delle dimensioni.
Luma Ray2 e Ray2 Flash hanno anche ottenuto buoni risultati, ma hanno mostrato occasionali problemi di coerenza fattuale (ad esempio, veicoli che si muovono nella direzione sbagliata sulle autostrade).
Pixverse v3.5 e v4 hanno fornito una solida fedeltà morfologica nonostante si classifichino leggermente più in basso nel complesso.
Modelli come Minimax Video-01, Mochi v1, e Wan v2.1-1.3B hanno frequentemente prodotto figure instabili, inclusi arti mancanti, mani distorte e personaggi che scompaiono tra i fotogrammi, portando a punteggi temporali e morfologici più bassi.

Prestazioni del Modello Valutatore

Il modello valutatore ha raggiunto una correlazione di Spearman media di ~0.50 rispetto al set di test annotato dagli umani, in linea con il precedente benchmark VideoScore di Tigerlab.
La dimensione del rischio di copyright ha avuto prestazioni inferiori in termini di correlazione. Nonostante il sovracampionamento delle classi, il modello fatica ancora ad apprendere modelli associati a contenuti borderline o del mondo reale.
Il modello tende ad assegnare [4, 4, 4, 4, 4, 4, 3] a video che assomigliano molto a filmati reali, probabilmente a causa dell’esposizione a video reali di qualità simile nel set di addestramento.

Miglioramenti Futuri

Migliorare la diversità delle etichette: Aumentare la diversità dei dati di addestramento, specialmente per esempi sottorappresentati o ambigui, per aiutare il modello a generalizzare meglio in tutte le dimensioni.
Perfezionare l’obiettivo di punteggio: Passare a un approccio di punteggio basato sulla regressione (come utilizzato nel modello VideoScore originale) per un feedback più accurato e continuo.
Ampliare le valutazioni: Espandere il numero di prompt per modello (ad esempio, da 10 a 30) per benchmark più affidabili e ridotto rumore di campionamento.

Generale

Introduzione

Prompt Engineering

Argomenti di Esempio

Livelli di Apprendimento

Ricerca

Research overview

Panoramica

Metodologia di Punteggio

Formula di Calcolo del Punteggio

Risultati del Benchmark

Riepilogo della Valutazione

Prestazioni del Modello Valutatore

Miglioramenti Futuri

Generale

Introduzione

Prompt Engineering

Argomenti di Esempio

Livelli di Apprendimento

Ricerca

​Panoramica

​Metodologia di Punteggio

​Formula di Calcolo del Punteggio

​Risultati del Benchmark

​Riepilogo della Valutazione

​Prestazioni del Modello Valutatore

​Miglioramenti Futuri

Panoramica

Metodologia di Punteggio

Formula di Calcolo del Punteggio

Risultati del Benchmark

Riepilogo della Valutazione

Prestazioni del Modello Valutatore

Miglioramenti Futuri