अवलोकन

MORPH बेंचमार्क AI-जनित वीडियो सामग्री की गुणवत्ता का मूल्यांकन करने के लिए डिज़ाइन किया गया है, जिसमें आकारिक निष्ठा, अस्थायी संगति, कॉपीराइट जोखिम और अन्य प्रमुख दृश्य और तथ्यात्मक विशेषताओं पर ध्यान केंद्रित किया गया है। यह बेंचमार्क अत्याधुनिक टेक्स्ट-टू-वीडियो मॉडल की वस्तुनिष्ठ तुलना को सक्षम बनाता है, जो सूक्ष्म-स्तरीय (प्रति-वीडियो) और समग्र (प्रति-मॉडल) स्कोरिंग प्रदान करता है।


स्कोरिंग पद्धति

प्रत्येक वीडियो को 7 मूल्यांकन आयामों में रेट किया जाता है:

  1. दृश्य गुणवत्ता (VQ): स्पष्टता, रिज़ॉल्यूशन, चमक और रंग
  2. अस्थायी संगति (TC): वीडियो में वस्तुओं या मनुष्यों की संगति
  3. गतिशील डिग्री (DD): गतिशील परिवर्तनों की डिग्री
  4. टेक्स्ट-टू-वीडियो संरेखण (TVA): टेक्स्ट प्रॉम्प्ट और वीडियो सामग्री के बीच संरेखण
  5. तथ्यात्मक संगति (FC): सामान्य-ज्ञान और तथ्यात्मक ज्ञान के साथ संगति
  6. आकारिक निष्ठा (MF): यथार्थवाद, शारीरिक संगति, और गति में मानव आकृतियों की सुसंगतता
  7. कॉपीराइट जोखिम (CR): प्रसिद्ध मीडिया से दृश्य समानता

प्रत्येक पहलू को 1-4 के पैमाने पर रेट किया जाता है, जहां 4 इष्टतम प्रदर्शन का प्रतिनिधित्व करता है।

स्कोर गणना फॉर्मूला

एक वीडियो के लिए अंतिम स्कोर इस प्रकार गणना की जाती है:

Final Score = ( (1/4) * (N_1 / 7) + (2/4) * (N_2 / 7) + (3/4) * (N_3 / 7) + (4/4) * (N_4 / 7) ) * 100

जहां Nᵢ उन पहलुओं की संख्या है जिन्हें i (1, 2, 3, या 4) का स्कोर मिला है।

Example: स्कोर वाले वीडियो के लिए, गणना इस प्रकार होगी:

Final Score = ( (1/4) * (1 / 7) + (2/4) * (3 / 7) + (3/4) * (1 / 7) + (4/4) * (2 / 7) ) * 100 = 64.28

बेंचमार्क परिणाम

देखें model-comparison.mdx प्रति-मॉडल और प्रति-एपोक परिणामों की विस्तृत तालिकाओं के लिए।


मूल्यांकन सारांश

  • Kling v1.5 का MORPH बेंचमार्क में सबसे अधिक समग्र स्कोर है, जिसमें दृश्य गुणवत्ता और आकारिक निष्ठा दोनों में लगातार मजबूत प्रदर्शन है।
  • Sora निकटता से अनुसरण करता है, जिसका प्रदर्शन अधिकांश आयामों में Kling के समान है।
  • Luma Ray2 और Ray2 Flash मॉडल भी अच्छा प्रदर्शन करते हैं, लेकिन कभी-कभी तथ्यात्मक संगति के साथ समस्याएं दिखाते हैं (जैसे, राजमार्गों पर गलत दिशा में चलने वाले वाहन)।
  • Pixverse v3.5 और v4 ने थोड़ा कम समग्र रैंकिंग के बावजूद ठोस आकारिक निष्ठा प्रदान की।
  • मॉडल जैसे Minimax Video-01, Mochi v1, और Wan v2.1-1.3B अक्सर अस्थिर आकृतियां उत्पन्न करते हैं, जिनमें अंगों का गायब होना, विकृत हाथ, और फ्रेम के बीच चरित्रों का गायब होना शामिल है, जिससे कम कालिक और आकारिक स्कोर प्राप्त होते हैं।

मॉडल मूल्यांकनकर्ता प्रदर्शन

  • मूल्यांकनकर्ता मॉडल ने मानव-अनोटेटेड टेस्ट सेट के खिलाफ लगभग 0.50 का औसत स्पीयरमैन सहसंबंध हासिल किया, जो Tigerlab के पिछले VideoScore बेंचमार्क के अनुरूप है।
  • कॉपीराइट जोखिम आयाम सहसंबंध के मामले में कम प्रदर्शन करता है। क्लास ओवरसैंपलिंग के बावजूद, मॉडल अभी भी सीमावर्ती या वास्तविक दुनिया की सामग्री से जुड़े पैटर्न सीखने में संघर्ष करता है।
  • मॉडल उन वीडियो को [4, 4, 4, 4, 4, 4, 3] असाइन करने की प्रवृत्ति रखता है जो वास्तविक फुटेज के समान दिखते हैं, संभवतः प्रशिक्षण सेट में इसी तरह के उच्च-गुणवत्ता वाले वास्तविक वीडियो के संपर्क के कारण।

भविष्य के सुधार

  • लेबल विविधता में सुधार करें: प्रशिक्षण डेटा विविधता बढ़ाएं, विशेष रूप से कम प्रतिनिधित्व वाले या अस्पष्ट उदाहरणों के लिए, ताकि मॉडल को सभी आयामों में बेहतर सामान्यीकरण में मदद मिल सके।
  • स्कोरिंग उद्देश्य को परिष्कृत करें: अधिक सटीक और निरंतर प्रतिक्रिया के लिए रिग्रेशन-आधारित स्कोरिंग दृष्टिकोण (जैसा कि मूल VideoScore मॉडल में उपयोग किया गया है) पर संक्रमण करें।
  • मूल्यांकन का विस्तार करें: अधिक विश्वसनीय बेंचमार्क और कम सैंपलिंग नॉइज़ के लिए प्रति मॉडल प्रॉम्प्ट की संख्या बढ़ाएं (जैसे, 10 से 30 तक)।