Ikhtisar

Tolok ukur MORPH dirancang untuk mengevaluasi kualitas konten video yang dihasilkan AI dengan fokus pada kesetiaan morfologis, konsistensi temporal, risiko hak cipta, dan atribut visual dan faktual kunci lainnya. Tolok ukur ini memungkinkan perbandingan objektif model text-to-video mutakhir, menawarkan penilaian terperinci (per video) dan agregat (per model).


Metodologi Penilaian

Setiap video dinilai berdasarkan 7 dimensi evaluasi:

  1. Kualitas Visual (VQ): Kejelasan, resolusi, kecerahan, dan warna
  2. Konsistensi Temporal (TC): Konsistensi objek atau manusia dalam video
  3. Tingkat Dinamis (DD): Tingkat perubahan dinamis
  4. Keselarasan Teks-ke-Video (TVA): Keselarasan antara prompt teks dan konten video
  5. Konsistensi Faktual (FC): Konsistensi dengan pengetahuan umum dan faktual
  6. Kesetiaan Morfologis (MF): Realisme, konsistensi anatomis, dan koherensi figur manusia dalam gerakan
  7. Risiko Hak Cipta (CR): Kemiripan visual dengan media terkenal

Setiap aspek dinilai pada skala 1–4, dengan 4 mewakili kinerja optimal.

Rumus Perhitungan Skor

Skor akhir untuk sebuah video dihitung sebagai:

Final Score = ( (1/4) * (N_1 / 7) + (2/4) * (N_2 / 7) + (3/4) * (N_3 / 7) + (4/4) * (N_4 / 7) ) * 100

Di mana Nᵢ adalah jumlah aspek yang menerima skor i (1, 2, 3, atau 4).

Example: Untuk video dengan skor, perhitungannya akan menjadi:

Final Score = ( (1/4) * (1 / 7) + (2/4) * (3 / 7) + (3/4) * (1 / 7) + (4/4) * (2 / 7) ) * 100 = 64.28

Hasil Tolok Ukur

Lihat model-comparison.mdx untuk tabel detail hasil per-model dan per-epoch.


Ringkasan Evaluasi

  • Kling v1.5 memiliki skor keseluruhan tertinggi dalam tolok ukur MORPH, dengan kinerja yang konsisten kuat dalam kualitas visual dan kesetiaan morfologis.
  • Sora mengikuti dengan ketat, dengan kinerja yang sangat sebanding dengan Kling di sebagian besar dimensi.
  • Luma Ray2 dan Ray2 Flash model juga berkinerja baik, tetapi menunjukkan masalah sesekali dengan konsistensi faktual (misalnya, kendaraan bergerak ke arah yang salah di jalan raya).
  • Pixverse v3.5 dan v4 memberikan kesetiaan morfologis yang solid meskipun peringkatnya sedikit lebih rendah secara keseluruhan.
  • Model seperti Minimax Video-01, Mochi v1, dan Wan v2.1-1.3B sering menghasilkan figur yang tidak stabil, termasuk anggota tubuh yang hilang, tangan yang terdistorsi, dan karakter yang menghilang di antara frame, yang menyebabkan skor temporal dan morfologi yang lebih rendah.

Performa Model Evaluator

  • Model evaluator mencapai korelasi Spearman rata-rata sekitar 0,50 terhadap set pengujian yang dianotasi manusia, sejalan dengan benchmark VideoScore sebelumnya dari Tigerlab.
  • Dimensi risiko hak cipta berkinerja kurang baik dalam hal korelasi. Meskipun dilakukan oversampling kelas, model masih kesulitan untuk mempelajari pola yang terkait dengan konten yang berada di ambang batas atau konten dunia nyata.
  • Model cenderung memberikan nilai [4, 4, 4, 4, 4, 4, 3] untuk video yang sangat menyerupai rekaman nyata, kemungkinan karena paparan terhadap video nyata berkualitas tinggi yang serupa dalam set pelatihan.

Perbaikan di Masa Depan

  • Meningkatkan keragaman label: Meningkatkan keragaman data pelatihan, terutama untuk contoh yang kurang terwakili atau ambigu, untuk membantu model melakukan generalisasi dengan lebih baik di semua dimensi.
  • Menyempurnakan tujuan penilaian: Beralih ke pendekatan penilaian berbasis regresi (seperti yang digunakan dalam model VideoScore asli) untuk umpan balik yang lebih akurat dan berkelanjutan.
  • Evaluasi skala: Memperluas jumlah prompt per model (misalnya, dari 10 menjadi 30) untuk tolok ukur yang lebih andal dan mengurangi noise sampling.