Research overview
Genel Bakış
MORPH benchmark, morfolojik doğruluk, zamansal tutarlılık, telif hakkı riski ve diğer önemli görsel ve olgusal özellikler üzerine odaklanarak AI tarafından oluşturulan video içeriğinin kalitesini değerlendirmek için tasarlanmıştır. Bu benchmark, son teknoloji metin-video modellerinin hem ayrıntılı (video başına) hem de toplu (model başına) puanlama sunarak nesnel karşılaştırmasını sağlar.
- Benchmark modeli: https://huggingface.co/ChimaAI/MORPH-benchmark
- Eğitim veri seti: https://huggingface.co/datasets/ChimaAI/MORPH-dataset
Puanlama Metodolojisi
Her video 7 değerlendirme boyutunda derecelendirilir:
- Görsel Kalite (VQ): Netlik, çözünürlük, parlaklık ve renk
- Zamansal Tutarlılık (TC): Videodaki nesnelerin veya insanların tutarlılığı
- Dinamik Derece (DD): Dinamik değişimlerin derecesi
- Metin-Video Uyumu (TVA): Metin promptu ile video içeriği arasındaki uyum
- Olgusal Tutarlılık (FC): Sağduyu ve olgusal bilgi ile tutarlılık
- Morfolojik Doğruluk (MF): İnsan figürlerinin hareket boyunca gerçekçiliği, anatomik tutarlılığı ve uyumu
- Telif Hakkı Riski (CR): İyi bilinen medyaya görsel benzerlik
Her yön 1-4 ölçeğinde derecelendirilir, 4 optimal performansı temsil eder.
Puan Hesaplama Formülü
Bir video için nihai puan şu şekilde hesaplanır:
Burada Nᵢ, i puanı (1, 2, 3 veya 4) alan yönlerin sayısıdır.
Example: Puanları olan bir video için hesaplama şöyle olacaktır:
Benchmark Sonuçları
Bkz. model-comparison.mdx model başına ve dönem başına sonuçların ayrıntılı tabloları için.
Değerlendirme Özeti
- Kling v1.5 hem görsel kalite hem de morfolojik doğrulukta tutarlı güçlü performansla MORPH benchmark’ta en yüksek genel puana sahiptir.
- Sora yakından takip ediyor, çoğu boyutta Kling’e oldukça benzer performans gösteriyor.
- Luma Ray2 ve Ray2 Flash modelleri de iyi performans gösterdi, ancak zaman zaman olgusal tutarlılık sorunları (örn. araçların otoyollarda yanlış yönde hareket etmesi) sergiledi.
- Pixverse v3.5 ve v4 genel sıralamada biraz daha düşük olmasına rağmen sağlam morfolojik doğruluk sundu.
- Şunun gibi modeller Minimax Video-01, Mochi v1, ve Wan v2.1-1.3B sıklıkla eksik uzuvlar, bozulmuş eller ve kareler arasında kaybolan karakterler dahil olmak üzere kararsız figürler üretmiş, bu da daha düşük zamansal ve morfolojik puanlara yol açmıştır.
Model Değerlendirici Performansı
- Değerlendirici model, insan tarafından açıklamalı test setine karşı ortalama ~0.50 Spearman korelasyonu elde etti, bu da Tigerlab’ın önceki VideoScore kıyaslamasıyla uyumludur.
- Telif hakkı riski boyutu, korelasyon açısından düşük performans gösterdi. Sınıf aşırı örneklemesine rağmen, model hala sınırda veya gerçek dünya içeriğiyle ilişkili kalıpları öğrenmekte zorlanıyor.
- Model, gerçek görüntülere çok benzeyen videolara [4, 4, 4, 4, 4, 4, 3] atama eğilimindedir, bu muhtemelen eğitim setinde benzer şekilde yüksek kaliteli gerçek videolara maruz kalmasından kaynaklanmaktadır.
Gelecekteki İyileştirmeler
- Etiket çeşitliliğini artırın: Modelin tüm boyutlarda daha iyi genelleme yapmasına yardımcı olmak için, özellikle az temsil edilen veya belirsiz örnekler için eğitim verisi çeşitliliğini artırın.
- Puanlama hedefini iyileştirin: Daha doğru ve sürekli geri bildirim için regresyon tabanlı bir puanlama yaklaşımına (orijinal VideoScore modelinde kullanıldığı gibi) geçiş yapın.
- Değerlendirmeleri ölçeklendirin: Daha güvenilir kıyaslamalar ve azaltılmış örnekleme gürültüsü için model başına istem sayısını genişletin (örneğin, 10’dan 30’a).