개요

MORPH 벤치마크는 형태학적 충실도, 시간적 일관성, 저작권 위험 및 기타 주요 시각적 및 사실적 속성에 중점을 두고 AI 생성 비디오 콘텐츠의 품질을 평가하도록 설계되었습니다. 이 벤치마크는 최첨단 텍스트-투-비디오 모델의 객관적인 비교를 가능하게 하며, 세부적인(비디오별) 및 종합적인(모델별) 점수를 제공합니다.


점수 부여 방법론

각 비디오는 7가지 평가 차원에 걸쳐 평가됩니다:

  1. 시각적 품질(VQ): 선명도, 해상도, 밝기 및 색상
  2. 시간적 일관성(TC): 비디오에서 객체 또는 인물의 일관성
  3. 동적 정도(DD): 동적 변화의 정도
  4. 텍스트-비디오 정렬(TVA): 텍스트 프롬프트와 비디오 콘텐츠 간의 정렬
  5. 사실적 일관성(FC): 상식 및 사실적 지식과의 일관성
  6. 형태학적 충실도(MF): 인물 형태의 사실성, 해부학적 일관성 및 움직임에 따른 일관성
  7. 저작권 위험(CR): 잘 알려진 미디어와의 시각적 유사성

각 측면은 1-4 척도로 평가되며, 4는 최적의 성능을 나타냅니다.

점수 계산 공식

비디오의 최종 점수는 다음과 같이 계산됩니다:

Final Score = ( (1/4) * (N_1 / 7) + (2/4) * (N_2 / 7) + (3/4) * (N_3 / 7) + (4/4) * (N_4 / 7) ) * 100

여기서 Nᵢ는 점수 i(1, 2, 3 또는 4)를 받은 측면의 수입니다.

Example: 점수가 있는 비디오의 경우 계산은 다음과 같습니다:

Final Score = ( (1/4) * (1 / 7) + (2/4) * (3 / 7) + (3/4) * (1 / 7) + (4/4) * (2 / 7) ) * 100 = 64.28

벤치마크 결과

자세한 모델별 및 에포크별 결과 표는 다음을 참조하세요 model-comparison.mdx.


평가 요약

  • Kling v1.5는 시각적 품질과 형태학적 충실도 모두에서 일관되게 강한 성능을 보이며 MORPH 벤치마크에서 가장 높은 전체 점수를 받았습니다.
  • Sora가 근접하게 따르며, 대부분의 차원에서 Kling과 매우 유사한 성능을 보입니다.
  • Luma Ray2Ray2 Flash 모델도 잘 수행되었지만, 사실적 일관성(예: 고속도로에서 잘못된 방향으로 움직이는 차량)에 간헐적인 문제를 보였습니다.
  • Pixverse v3.5v4는 전체 순위가 약간 낮음에도 불구하고 견고한 형태학적 충실도를 제공했습니다.
  • Models such as Minimax Video-01, Mochi v1, and Wan v2.1-1.3B 자주 불안정한 형상을 생성했으며, 이는 사라진 팔다리, 왜곡된 손, 프레임 간 사라지는 캐릭터 등을 포함하여 시간적, 형태적 점수가 낮아지는 결과를 가져왔습니다.

모델 평가자 성능

  • 평가자 모델은 인간이 주석을 단 테스트 세트에 대해 평균 스피어만 상관관계 ~0.50을 달성했으며, 이는 Tigerlab의 이전 VideoScore 벤치마크와 일치합니다.
  • 저작권 위험 차원은 상관관계 측면에서 성능이 저조했습니다. 클래스 오버샘플링에도 불구하고, 모델은 여전히 경계선상이거나 실제 콘텐츠와 관련된 패턴을 학습하는 데 어려움을 겪고 있습니다.
  • 모델은 실제 영상과 매우 유사한 비디오에 [4, 4, 4, 4, 4, 4, 3]을 할당하는 경향이 있는데, 이는 훈련 세트에서 유사하게 고품질의 실제 비디오에 노출되었기 때문일 가능성이 높습니다.

향후 개선 사항

  • 레이블 다양성 개선: 특히 과소 대표되거나 모호한 예시에 대한 훈련 데이터 다양성을 증가시켜 모델이 모든 차원에서 더 잘 일반화할 수 있도록 돕습니다.
  • 점수 목표 개선: 더 정확하고 연속적인 피드백을 위해 회귀 기반 점수 접근 방식(원래 VideoScore 모델에서 사용된)으로 전환합니다.
  • 평가 규모 확대: 모델당 프롬프트 수를 확대(예: 10개에서 30개로)하여 더 신뢰할 수 있는 벤치마크와 샘플링 노이즈 감소를 실현합니다.