Research overview
अवलोकन
MORPH बेंचमार्क AI-जनित वीडियो सामग्री की गुणवत्ता का मूल्यांकन करने के लिए डिज़ाइन किया गया है, जिसमें आकारिक निष्ठा, अस्थायी संगति, कॉपीराइट जोखिम और अन्य प्रमुख दृश्य और तथ्यात्मक विशेषताओं पर ध्यान केंद्रित किया गया है। यह बेंचमार्क अत्याधुनिक टेक्स्ट-टू-वीडियो मॉडल की वस्तुनिष्ठ तुलना को सक्षम बनाता है, जो सूक्ष्म-स्तरीय (प्रति-वीडियो) और समग्र (प्रति-मॉडल) स्कोरिंग प्रदान करता है।
- बेंचमार्क मॉडल: https://huggingface.co/ChimaAI/MORPH-benchmark
- प्रशिक्षण डेटासेट: https://huggingface.co/datasets/ChimaAI/MORPH-dataset
स्कोरिंग पद्धति
प्रत्येक वीडियो को 7 मूल्यांकन आयामों में रेट किया जाता है:
- दृश्य गुणवत्ता (VQ): स्पष्टता, रिज़ॉल्यूशन, चमक और रंग
- अस्थायी संगति (TC): वीडियो में वस्तुओं या मनुष्यों की संगति
- गतिशील डिग्री (DD): गतिशील परिवर्तनों की डिग्री
- टेक्स्ट-टू-वीडियो संरेखण (TVA): टेक्स्ट प्रॉम्प्ट और वीडियो सामग्री के बीच संरेखण
- तथ्यात्मक संगति (FC): सामान्य-ज्ञान और तथ्यात्मक ज्ञान के साथ संगति
- आकारिक निष्ठा (MF): यथार्थवाद, शारीरिक संगति, और गति में मानव आकृतियों की सुसंगतता
- कॉपीराइट जोखिम (CR): प्रसिद्ध मीडिया से दृश्य समानता
प्रत्येक पहलू को 1-4 के पैमाने पर रेट किया जाता है, जहां 4 इष्टतम प्रदर्शन का प्रतिनिधित्व करता है।
स्कोर गणना फॉर्मूला
एक वीडियो के लिए अंतिम स्कोर इस प्रकार गणना की जाती है:
जहां Nᵢ उन पहलुओं की संख्या है जिन्हें i (1, 2, 3, या 4) का स्कोर मिला है।
Example: स्कोर वाले वीडियो के लिए, गणना इस प्रकार होगी:
बेंचमार्क परिणाम
देखें model-comparison.mdx प्रति-मॉडल और प्रति-एपोक परिणामों की विस्तृत तालिकाओं के लिए।
मूल्यांकन सारांश
- Kling v1.5 का MORPH बेंचमार्क में सबसे अधिक समग्र स्कोर है, जिसमें दृश्य गुणवत्ता और आकारिक निष्ठा दोनों में लगातार मजबूत प्रदर्शन है।
- Sora निकटता से अनुसरण करता है, जिसका प्रदर्शन अधिकांश आयामों में Kling के समान है।
- Luma Ray2 और Ray2 Flash मॉडल भी अच्छा प्रदर्शन करते हैं, लेकिन कभी-कभी तथ्यात्मक संगति के साथ समस्याएं दिखाते हैं (जैसे, राजमार्गों पर गलत दिशा में चलने वाले वाहन)।
- Pixverse v3.5 और v4 ने थोड़ा कम समग्र रैंकिंग के बावजूद ठोस आकारिक निष्ठा प्रदान की।
- मॉडल जैसे Minimax Video-01, Mochi v1, और Wan v2.1-1.3B अक्सर अस्थिर आकृतियां उत्पन्न करते हैं, जिनमें अंगों का गायब होना, विकृत हाथ, और फ्रेम के बीच चरित्रों का गायब होना शामिल है, जिससे कम कालिक और आकारिक स्कोर प्राप्त होते हैं।
मॉडल मूल्यांकनकर्ता प्रदर्शन
- मूल्यांकनकर्ता मॉडल ने मानव-अनोटेटेड टेस्ट सेट के खिलाफ लगभग 0.50 का औसत स्पीयरमैन सहसंबंध हासिल किया, जो Tigerlab के पिछले VideoScore बेंचमार्क के अनुरूप है।
- कॉपीराइट जोखिम आयाम सहसंबंध के मामले में कम प्रदर्शन करता है। क्लास ओवरसैंपलिंग के बावजूद, मॉडल अभी भी सीमावर्ती या वास्तविक दुनिया की सामग्री से जुड़े पैटर्न सीखने में संघर्ष करता है।
- मॉडल उन वीडियो को [4, 4, 4, 4, 4, 4, 3] असाइन करने की प्रवृत्ति रखता है जो वास्तविक फुटेज के समान दिखते हैं, संभवतः प्रशिक्षण सेट में इसी तरह के उच्च-गुणवत्ता वाले वास्तविक वीडियो के संपर्क के कारण।
भविष्य के सुधार
- लेबल विविधता में सुधार करें: प्रशिक्षण डेटा विविधता बढ़ाएं, विशेष रूप से कम प्रतिनिधित्व वाले या अस्पष्ट उदाहरणों के लिए, ताकि मॉडल को सभी आयामों में बेहतर सामान्यीकरण में मदद मिल सके।
- स्कोरिंग उद्देश्य को परिष्कृत करें: अधिक सटीक और निरंतर प्रतिक्रिया के लिए रिग्रेशन-आधारित स्कोरिंग दृष्टिकोण (जैसा कि मूल VideoScore मॉडल में उपयोग किया गया है) पर संक्रमण करें।
- मूल्यांकन का विस्तार करें: अधिक विश्वसनीय बेंचमार्क और कम सैंपलिंग नॉइज़ के लिए प्रति मॉडल प्रॉम्प्ट की संख्या बढ़ाएं (जैसे, 10 से 30 तक)।