Research overview

Genel Bakış

MORPH benchmark, morfolojik doğruluk, zamansal tutarlılık, telif hakkı riski ve diğer önemli görsel ve olgusal özellikler üzerine odaklanarak AI tarafından oluşturulan video içeriğinin kalitesini değerlendirmek için tasarlanmıştır. Bu benchmark, son teknoloji metin-video modellerinin hem ayrıntılı (video başına) hem de toplu (model başına) puanlama sunarak nesnel karşılaştırmasını sağlar.

Benchmark modeli: https://huggingface.co/ChimaAI/MORPH-benchmark
Eğitim veri seti: https://huggingface.co/datasets/ChimaAI/MORPH-dataset

Puanlama Metodolojisi

Her video 7 değerlendirme boyutunda derecelendirilir:

Görsel Kalite (VQ): Netlik, çözünürlük, parlaklık ve renk
Zamansal Tutarlılık (TC): Videodaki nesnelerin veya insanların tutarlılığı
Dinamik Derece (DD): Dinamik değişimlerin derecesi
Metin-Video Uyumu (TVA): Metin promptu ile video içeriği arasındaki uyum
Olgusal Tutarlılık (FC): Sağduyu ve olgusal bilgi ile tutarlılık
Morfolojik Doğruluk (MF): İnsan figürlerinin hareket boyunca gerçekçiliği, anatomik tutarlılığı ve uyumu
Telif Hakkı Riski (CR): İyi bilinen medyaya görsel benzerlik

Her yön 1-4 ölçeğinde derecelendirilir, 4 optimal performansı temsil eder.

Puan Hesaplama Formülü

Bir video için nihai puan şu şekilde hesaplanır:

Final Score = ( (1/4) * (N_1 / 7) + (2/4) * (N_2 / 7) + (3/4) * (N_3 / 7) + (4/4) * (N_4 / 7) ) * 100

Burada Nᵢ, i puanı (1, 2, 3 veya 4) alan yönlerin sayısıdır.

Example: Puanları olan bir video için hesaplama şöyle olacaktır:

Final Score = ( (1/4) * (1 / 7) + (2/4) * (3 / 7) + (3/4) * (1 / 7) + (4/4) * (2 / 7) ) * 100 = 64.28

Benchmark Sonuçları

Bkz. model-comparison.mdx model başına ve dönem başına sonuçların ayrıntılı tabloları için.

Değerlendirme Özeti

Kling v1.5 hem görsel kalite hem de morfolojik doğrulukta tutarlı güçlü performansla MORPH benchmark’ta en yüksek genel puana sahiptir.
Sora yakından takip ediyor, çoğu boyutta Kling’e oldukça benzer performans gösteriyor.
Luma Ray2 ve Ray2 Flash modelleri de iyi performans gösterdi, ancak zaman zaman olgusal tutarlılık sorunları (örn. araçların otoyollarda yanlış yönde hareket etmesi) sergiledi.
Pixverse v3.5 ve v4 genel sıralamada biraz daha düşük olmasına rağmen sağlam morfolojik doğruluk sundu.
Şunun gibi modeller Minimax Video-01, Mochi v1, ve Wan v2.1-1.3B sıklıkla eksik uzuvlar, bozulmuş eller ve kareler arasında kaybolan karakterler dahil olmak üzere kararsız figürler üretmiş, bu da daha düşük zamansal ve morfolojik puanlara yol açmıştır.

Model Değerlendirici Performansı

Değerlendirici model, insan tarafından açıklamalı test setine karşı ortalama ~0.50 Spearman korelasyonu elde etti, bu da Tigerlab’ın önceki VideoScore kıyaslamasıyla uyumludur.
Telif hakkı riski boyutu, korelasyon açısından düşük performans gösterdi. Sınıf aşırı örneklemesine rağmen, model hala sınırda veya gerçek dünya içeriğiyle ilişkili kalıpları öğrenmekte zorlanıyor.
Model, gerçek görüntülere çok benzeyen videolara [4, 4, 4, 4, 4, 4, 3] atama eğilimindedir, bu muhtemelen eğitim setinde benzer şekilde yüksek kaliteli gerçek videolara maruz kalmasından kaynaklanmaktadır.

Gelecekteki İyileştirmeler

Etiket çeşitliliğini artırın: Modelin tüm boyutlarda daha iyi genelleme yapmasına yardımcı olmak için, özellikle az temsil edilen veya belirsiz örnekler için eğitim verisi çeşitliliğini artırın.
Puanlama hedefini iyileştirin: Daha doğru ve sürekli geri bildirim için regresyon tabanlı bir puanlama yaklaşımına (orijinal VideoScore modelinde kullanıldığı gibi) geçiş yapın.
Değerlendirmeleri ölçeklendirin: Daha güvenilir kıyaslamalar ve azaltılmış örnekleme gürültüsü için model başına istem sayısını genişletin (örneğin, 10’dan 30’a).

Genel

Giriş

Prompt Mühendisliği

Örnek Konular

Öğrenme Seviyeleri

Araştırma

Research overview

Genel Bakış

Puanlama Metodolojisi

Puan Hesaplama Formülü

Benchmark Sonuçları

Değerlendirme Özeti

Model Değerlendirici Performansı

Gelecekteki İyileştirmeler

Genel

Giriş

Prompt Mühendisliği

Örnek Konular

Öğrenme Seviyeleri

Araştırma

​Genel Bakış

​Puanlama Metodolojisi

​Puan Hesaplama Formülü

​Benchmark Sonuçları

​Değerlendirme Özeti

​Model Değerlendirici Performansı

​Gelecekteki İyileştirmeler

Genel Bakış

Puanlama Metodolojisi

Puan Hesaplama Formülü

Benchmark Sonuçları

Değerlendirme Özeti

Model Değerlendirici Performansı

Gelecekteki İyileştirmeler