Research overview

अवलोकन

MORPH बेंचमार्क AI-जनित वीडियो सामग्री की गुणवत्ता का मूल्यांकन करने के लिए डिज़ाइन किया गया है, जिसमें आकारिक निष्ठा, अस्थायी संगति, कॉपीराइट जोखिम और अन्य प्रमुख दृश्य और तथ्यात्मक विशेषताओं पर ध्यान केंद्रित किया गया है। यह बेंचमार्क अत्याधुनिक टेक्स्ट-टू-वीडियो मॉडल की वस्तुनिष्ठ तुलना को सक्षम बनाता है, जो सूक्ष्म-स्तरीय (प्रति-वीडियो) और समग्र (प्रति-मॉडल) स्कोरिंग प्रदान करता है।

बेंचमार्क मॉडल: https://huggingface.co/ChimaAI/MORPH-benchmark
प्रशिक्षण डेटासेट: https://huggingface.co/datasets/ChimaAI/MORPH-dataset

स्कोरिंग पद्धति

प्रत्येक वीडियो को 7 मूल्यांकन आयामों में रेट किया जाता है:

दृश्य गुणवत्ता (VQ): स्पष्टता, रिज़ॉल्यूशन, चमक और रंग
अस्थायी संगति (TC): वीडियो में वस्तुओं या मनुष्यों की संगति
गतिशील डिग्री (DD): गतिशील परिवर्तनों की डिग्री
टेक्स्ट-टू-वीडियो संरेखण (TVA): टेक्स्ट प्रॉम्प्ट और वीडियो सामग्री के बीच संरेखण
तथ्यात्मक संगति (FC): सामान्य-ज्ञान और तथ्यात्मक ज्ञान के साथ संगति
आकारिक निष्ठा (MF): यथार्थवाद, शारीरिक संगति, और गति में मानव आकृतियों की सुसंगतता
कॉपीराइट जोखिम (CR): प्रसिद्ध मीडिया से दृश्य समानता

प्रत्येक पहलू को 1-4 के पैमाने पर रेट किया जाता है, जहां 4 इष्टतम प्रदर्शन का प्रतिनिधित्व करता है।

स्कोर गणना फॉर्मूला

एक वीडियो के लिए अंतिम स्कोर इस प्रकार गणना की जाती है:

Final Score = ( (1/4) * (N_1 / 7) + (2/4) * (N_2 / 7) + (3/4) * (N_3 / 7) + (4/4) * (N_4 / 7) ) * 100

जहां Nᵢ उन पहलुओं की संख्या है जिन्हें i (1, 2, 3, या 4) का स्कोर मिला है।

Example: स्कोर वाले वीडियो के लिए, गणना इस प्रकार होगी:

Final Score = ( (1/4) * (1 / 7) + (2/4) * (3 / 7) + (3/4) * (1 / 7) + (4/4) * (2 / 7) ) * 100 = 64.28

बेंचमार्क परिणाम

देखें model-comparison.mdx प्रति-मॉडल और प्रति-एपोक परिणामों की विस्तृत तालिकाओं के लिए।

मूल्यांकन सारांश

Kling v1.5 का MORPH बेंचमार्क में सबसे अधिक समग्र स्कोर है, जिसमें दृश्य गुणवत्ता और आकारिक निष्ठा दोनों में लगातार मजबूत प्रदर्शन है।
Sora निकटता से अनुसरण करता है, जिसका प्रदर्शन अधिकांश आयामों में Kling के समान है।
Luma Ray2 और Ray2 Flash मॉडल भी अच्छा प्रदर्शन करते हैं, लेकिन कभी-कभी तथ्यात्मक संगति के साथ समस्याएं दिखाते हैं (जैसे, राजमार्गों पर गलत दिशा में चलने वाले वाहन)।
Pixverse v3.5 और v4 ने थोड़ा कम समग्र रैंकिंग के बावजूद ठोस आकारिक निष्ठा प्रदान की।
मॉडल जैसे Minimax Video-01, Mochi v1, और Wan v2.1-1.3B अक्सर अस्थिर आकृतियां उत्पन्न करते हैं, जिनमें अंगों का गायब होना, विकृत हाथ, और फ्रेम के बीच चरित्रों का गायब होना शामिल है, जिससे कम कालिक और आकारिक स्कोर प्राप्त होते हैं।

मॉडल मूल्यांकनकर्ता प्रदर्शन

मूल्यांकनकर्ता मॉडल ने मानव-अनोटेटेड टेस्ट सेट के खिलाफ लगभग 0.50 का औसत स्पीयरमैन सहसंबंध हासिल किया, जो Tigerlab के पिछले VideoScore बेंचमार्क के अनुरूप है।
कॉपीराइट जोखिम आयाम सहसंबंध के मामले में कम प्रदर्शन करता है। क्लास ओवरसैंपलिंग के बावजूद, मॉडल अभी भी सीमावर्ती या वास्तविक दुनिया की सामग्री से जुड़े पैटर्न सीखने में संघर्ष करता है।
मॉडल उन वीडियो को [4, 4, 4, 4, 4, 4, 3] असाइन करने की प्रवृत्ति रखता है जो वास्तविक फुटेज के समान दिखते हैं, संभवतः प्रशिक्षण सेट में इसी तरह के उच्च-गुणवत्ता वाले वास्तविक वीडियो के संपर्क के कारण।

भविष्य के सुधार

लेबल विविधता में सुधार करें: प्रशिक्षण डेटा विविधता बढ़ाएं, विशेष रूप से कम प्रतिनिधित्व वाले या अस्पष्ट उदाहरणों के लिए, ताकि मॉडल को सभी आयामों में बेहतर सामान्यीकरण में मदद मिल सके।
स्कोरिंग उद्देश्य को परिष्कृत करें: अधिक सटीक और निरंतर प्रतिक्रिया के लिए रिग्रेशन-आधारित स्कोरिंग दृष्टिकोण (जैसा कि मूल VideoScore मॉडल में उपयोग किया गया है) पर संक्रमण करें।
मूल्यांकन का विस्तार करें: अधिक विश्वसनीय बेंचमार्क और कम सैंपलिंग नॉइज़ के लिए प्रति मॉडल प्रॉम्प्ट की संख्या बढ़ाएं (जैसे, 10 से 30 तक)।

सामान्य

परिचय

प्रॉम्प्ट इंजीनियरिंग

नमूना विषय

सीखने के स्तर

अनुसंधान

Research overview

अवलोकन

स्कोरिंग पद्धति

स्कोर गणना फॉर्मूला

बेंचमार्क परिणाम

मूल्यांकन सारांश

मॉडल मूल्यांकनकर्ता प्रदर्शन

भविष्य के सुधार

सामान्य

परिचय

प्रॉम्प्ट इंजीनियरिंग

नमूना विषय

सीखने के स्तर

अनुसंधान

​अवलोकन

​स्कोरिंग पद्धति

​स्कोर गणना फॉर्मूला

​बेंचमार्क परिणाम

​मूल्यांकन सारांश

​मॉडल मूल्यांकनकर्ता प्रदर्शन

​भविष्य के सुधार

अवलोकन

स्कोरिंग पद्धति

स्कोर गणना फॉर्मूला

बेंचमार्क परिणाम

मूल्यांकन सारांश

मॉडल मूल्यांकनकर्ता प्रदर्शन

भविष्य के सुधार