Research overview

نظرة عامة

تم تصميم معيار MORPH لتقييم جودة محتوى الفيديو الذي تنتجه الذكاء الاصطناعي مع التركيز على الدقة المورفولوجية، والاتساق الزمني، ومخاطر حقوق النشر، وغيرها من السمات البصرية والواقعية الرئيسية. يتيح هذا المعيار مقارنة موضوعية لنماذج تحويل النص إلى فيديو المتطورة، مع تقديم تسجيل دقيق (لكل فيديو) وإجمالي (لكل نموذج).

نموذج المعيار: https://huggingface.co/ChimaAI/MORPH-benchmark
مجموعة بيانات التدريب: https://huggingface.co/datasets/ChimaAI/MORPH-dataset

منهجية التسجيل

يتم تقييم كل فيديو عبر 7 أبعاد تقييم:

الجودة البصرية (VQ): الوضوح، والدقة، والسطوع، واللون
الاتساق الزمني (TC): اتساق الأشياء أو البشر في الفيديو
درجة الديناميكية (DD): درجة التغييرات الديناميكية
مطابقة النص مع الفيديو (TVA): المطابقة بين النص المدخل ومحتوى الفيديو
الاتساق الواقعي (FC): الاتساق مع المعرفة العامة والحقائق
الدقة المورفولوجية (MF): الواقعية، والاتساق التشريحي، وتماسك الأشكال البشرية أثناء الحركة
مخاطر حقوق النشر (CR): التشابه البصري مع الوسائط المعروفة

يتم تقييم كل جانب على مقياس من 1-4، حيث يمثل 4 الأداء الأمثل.

صيغة حساب الدرجة

يتم حساب الدرجة النهائية للفيديو على النحو التالي:

Final Score = ( (1/4) * (N_1 / 7) + (2/4) * (N_2 / 7) + (3/4) * (N_3 / 7) + (4/4) * (N_4 / 7) ) * 100

حيث Nᵢ هو عدد الجوانب التي حصلت على درجة i (1، 2، 3، أو 4).

Example: بالنسبة لفيديو بدرجات، سيكون الحساب:

Final Score = ( (1/4) * (1 / 7) + (2/4) * (3 / 7) + (3/4) * (1 / 7) + (4/4) * (2 / 7) ) * 100 = 64.28

نتائج المعيار

انظر model-comparison.mdx للحصول على جداول مفصلة للنتائج لكل نموذج ولكل فترة.

ملخص التقييم

Kling v1.5 لديه أعلى درجة إجمالية في معيار MORPH، مع أداء قوي باستمرار في كل من الجودة البصرية والدقة المورفولوجية.
Sora يأتي في المرتبة الثانية، بأداء مماثل جدًا لـ Kling في معظم الأبعاد.
Luma Ray2 و Ray2 Flash أيضًا أداء جيد، لكنها أظهرت مشاكل عرضية مع الاتساق الواقعي (مثل المركبات التي تتحرك في الاتجاه الخاطئ على الطرق السريعة).
Pixverse v3.5 و v4 قدمت دقة مورفولوجية قوية على الرغم من تصنيفها في مرتبة أقل بشكل عام.
نماذج مثل Minimax Video-01، Mochi v1، و Wan v2.1-1.3B غالباً ما أنتجت أشكالاً غير مستقرة، بما في ذلك أطراف مفقودة، وأيدي مشوهة، وشخصيات تختفي عبر الإطارات، مما أدى إلى درجات زمنية ومورفولوجية أقل.

أداء نموذج التقييم

حقق نموذج التقييم متوسط ارتباط سبيرمان يبلغ ~0.50 مقابل مجموعة الاختبار المشروحة بشرياً، بما يتماشى مع معيار VideoScore السابق من Tigerlab.
كان أداء بُعد مخاطر حقوق النشر أقل من حيث الارتباط. على الرغم من أخذ عينات زائدة من الفئات، لا يزال النموذج يواجه صعوبة في تعلم الأنماط المرتبطة بالمحتوى الحدودي أو الواقعي.
يميل النموذج إلى تعيين [4, 4, 4, 4, 4, 4, 3] للفيديوهات التي تشبه بشكل كبير اللقطات الحقيقية، ربما بسبب التعرض لفيديوهات حقيقية ذات جودة مماثلة عالية في مجموعة التدريب.

التحسينات المستقبلية

تحسين تنوع التسميات: زيادة تنوع بيانات التدريب، خاصة للأمثلة قليلة التمثيل أو الغامضة، لمساعدة النموذج على التعميم بشكل أفضل عبر جميع الأبعاد.
تحسين هدف التسجيل: الانتقال إلى نهج تسجيل قائم على الانحدار (كما هو مستخدم في نموذج VideoScore الأصلي) للحصول على تعليقات أكثر دقة واستمرارية.
توسيع نطاق التقييمات: زيادة عدد المطالبات لكل نموذج (على سبيل المثال، من 10 إلى 30) للحصول على معايير أكثر موثوقية وتقليل ضوضاء أخذ العينات.

عام

مقدمة

هندسة الموجهات

مواضيع نموذجية

مستويات التعلم

البحث

Research overview

نظرة عامة

منهجية التسجيل

صيغة حساب الدرجة

نتائج المعيار

ملخص التقييم

أداء نموذج التقييم

التحسينات المستقبلية

عام

مقدمة

هندسة الموجهات

مواضيع نموذجية

مستويات التعلم

البحث

​نظرة عامة

​منهجية التسجيل

​صيغة حساب الدرجة

​نتائج المعيار

​ملخص التقييم

​أداء نموذج التقييم

​التحسينات المستقبلية

نظرة عامة

منهجية التسجيل

صيغة حساب الدرجة

نتائج المعيار

ملخص التقييم

أداء نموذج التقييم

التحسينات المستقبلية