概要

MORPHベンチマークは、形態学的忠実性、時間的一貫性、著作権リスク、その他の重要な視覚的および事実的属性に焦点を当てて、AI生成ビデオコンテンツの品質を評価するように設計されています。このベンチマークにより、最先端のテキスト→ビデオモデルの客観的な比較が可能になり、詳細(ビデオごと)および集計(モデルごと)のスコアリングを提供します。


スコアリング方法論

各ビデオは7つの評価次元にわたって評価されます:

  1. 視覚的品質(VQ): 明瞭さ、解像度、明るさ、色
  2. 時間的一貫性(TC): ビデオ内のオブジェクトまたは人物の一貫性
  3. 動的度合い(DD): 動的変化の度合い
  4. テキストとビデオの整合性(TVA): テキストプロンプトとビデオコンテンツの整合性
  5. 事実的一貫性(FC): 常識や事実知識との一貫性
  6. 形態学的忠実性(MF): 人物の現実性、解剖学的一貫性、動きにおける一貫性
  7. 著作権リスク(CR): 広く知られているメディアとの視覚的類似性

各側面は1~4のスケールで評価され、4が最適なパフォーマンスを表します。

スコア計算式

ビデオの最終スコアは次のように計算されます:

Final Score = ( (1/4) * (N_1 / 7) + (2/4) * (N_2 / 7) + (3/4) * (N_3 / 7) + (4/4) * (N_4 / 7) ) * 100

ここでNᵢは、スコアiを受けた側面の数(1、2、3、または4)です。

Example: スコアを持つビデオの場合、計算は次のようになります:

Final Score = ( (1/4) * (1 / 7) + (2/4) * (3 / 7) + (3/4) * (1 / 7) + (4/4) * (2 / 7) ) * 100 = 64.28

ベンチマーク結果

詳細については model-comparison.mdx のモデルごとおよびエポックごとの結果の詳細表を参照してください。


評価サマリー

  • Kling v1.5 はMORPHベンチマークで最も高い総合スコアを獲得し、視覚的品質と形態学的忠実性の両方で一貫して強力なパフォーマンスを示しています。
  • Sora が僅差で続き、ほとんどの次元でKlingと非常に同等のパフォーマンスを示しています。
  • Luma Ray2Ray2 Flash モデルも良好なパフォーマンスを示しましたが、事実的一貫性(例:高速道路で車が間違った方向に移動するなど)に関して時折問題が見られました。
  • Pixverse v3.5v4 は全体的なランキングがやや低いにもかかわらず、堅実な形態学的忠実性を提供しました。
  • 以下のようなモデルはMinimax Video-01Mochi v1、そしてWan v2.1-1.3Bはしばしば不安定な映像を生成し、欠けた手足、歪んだ手、フレーム間でキャラクターが消えるなどの問題があり、時間的・形態的スコアが低くなっています。

モデル評価器のパフォーマンス

  • 評価モデルは、人間がアノテーションしたテストセットに対して平均スピアマン相関約0.50を達成し、Tigerlabの以前のVideoScoreベンチマークと同等の結果となりました。
  • 著作権リスクの次元は相関の点で性能が低下しました。クラスのオーバーサンプリングにもかかわらず、モデルはボーダーラインや実世界のコンテンツに関連するパターンの学習に苦戦しています。
  • モデルは実際の映像に近い動画に対して[4, 4, 4, 4, 4, 4, 3]を割り当てる傾向があります。これはトレーニングセットで同様の高品質な実際の動画に触れていることが原因と考えられます。

今後の改善点

  • ラベルの多様性を向上させる:トレーニングデータの多様性を高め、特に代表例が少ないまたは曖昧な例を増やすことで、モデルがすべての次元でより良く一般化できるようにする。
  • スコアリング目標の改良:より正確で連続的なフィードバックを得るために、回帰ベースのスコアリングアプローチ(オリジナルのVideoScoreモデルで使用されているもの)に移行する。
  • 評価の規模拡大:モデルごとのプロンプト数を増やし(例:10から30へ)、より信頼性の高いベンチマークとサンプリングノイズの削減を実現する。