Research overview

개요

MORPH 벤치마크는 형태학적 충실도, 시간적 일관성, 저작권 위험 및 기타 주요 시각적 및 사실적 속성에 중점을 두고 AI 생성 비디오 콘텐츠의 품질을 평가하도록 설계되었습니다. 이 벤치마크는 최첨단 텍스트-투-비디오 모델의 객관적인 비교를 가능하게 하며, 세부적인(비디오별) 및 종합적인(모델별) 점수를 제공합니다.

벤치마크 모델: https://huggingface.co/ChimaAI/MORPH-benchmark
훈련 데이터셋: https://huggingface.co/datasets/ChimaAI/MORPH-dataset

점수 부여 방법론

각 비디오는 7가지 평가 차원에 걸쳐 평가됩니다:

시각적 품질(VQ): 선명도, 해상도, 밝기 및 색상
시간적 일관성(TC): 비디오에서 객체 또는 인물의 일관성
동적 정도(DD): 동적 변화의 정도
텍스트-비디오 정렬(TVA): 텍스트 프롬프트와 비디오 콘텐츠 간의 정렬
사실적 일관성(FC): 상식 및 사실적 지식과의 일관성
형태학적 충실도(MF): 인물 형태의 사실성, 해부학적 일관성 및 움직임에 따른 일관성
저작권 위험(CR): 잘 알려진 미디어와의 시각적 유사성

각 측면은 1-4 척도로 평가되며, 4는 최적의 성능을 나타냅니다.

점수 계산 공식

비디오의 최종 점수는 다음과 같이 계산됩니다:

Final Score = ( (1/4) * (N_1 / 7) + (2/4) * (N_2 / 7) + (3/4) * (N_3 / 7) + (4/4) * (N_4 / 7) ) * 100

여기서 Nᵢ는 점수 i(1, 2, 3 또는 4)를 받은 측면의 수입니다.

Example: 점수가 있는 비디오의 경우 계산은 다음과 같습니다:

Final Score = ( (1/4) * (1 / 7) + (2/4) * (3 / 7) + (3/4) * (1 / 7) + (4/4) * (2 / 7) ) * 100 = 64.28

벤치마크 결과

자세한 모델별 및 에포크별 결과 표는 다음을 참조하세요 model-comparison.mdx.

평가 요약

Kling v1.5는 시각적 품질과 형태학적 충실도 모두에서 일관되게 강한 성능을 보이며 MORPH 벤치마크에서 가장 높은 전체 점수를 받았습니다.
Sora가 근접하게 따르며, 대부분의 차원에서 Kling과 매우 유사한 성능을 보입니다.
Luma Ray2와 Ray2 Flash 모델도 잘 수행되었지만, 사실적 일관성(예: 고속도로에서 잘못된 방향으로 움직이는 차량)에 간헐적인 문제를 보였습니다.
Pixverse v3.5와 v4는 전체 순위가 약간 낮음에도 불구하고 견고한 형태학적 충실도를 제공했습니다.
Models such as Minimax Video-01, Mochi v1, and Wan v2.1-1.3B 자주 불안정한 형상을 생성했으며, 이는 사라진 팔다리, 왜곡된 손, 프레임 간 사라지는 캐릭터 등을 포함하여 시간적, 형태적 점수가 낮아지는 결과를 가져왔습니다.

모델 평가자 성능

평가자 모델은 인간이 주석을 단 테스트 세트에 대해 평균 스피어만 상관관계 ~0.50을 달성했으며, 이는 Tigerlab의 이전 VideoScore 벤치마크와 일치합니다.
모델은 실제 영상과 매우 유사한 비디오에 [4, 4, 4, 4, 4, 4, 3]을 할당하는 경향이 있는데, 이는 훈련 세트에서 유사하게 고품질의 실제 비디오에 노출되었기 때문일 가능성이 높습니다.

향후 개선 사항

레이블 다양성 개선: 특히 과소 대표되거나 모호한 예시에 대한 훈련 데이터 다양성을 증가시켜 모델이 모든 차원에서 더 잘 일반화할 수 있도록 돕습니다.
점수 목표 개선: 더 정확하고 연속적인 피드백을 위해 회귀 기반 점수 접근 방식(원래 VideoScore 모델에서 사용된)으로 전환합니다.
평가 규모 확대: 모델당 프롬프트 수를 확대(예: 10개에서 30개로)하여 더 신뢰할 수 있는 벤치마크와 샘플링 노이즈 감소를 실현합니다.

일반

소개

프롬프트 엔지니어링

샘플 주제

학습 수준

연구

Research overview

개요

점수 부여 방법론

점수 계산 공식

벤치마크 결과

평가 요약

모델 평가자 성능

향후 개선 사항

일반

소개

프롬프트 엔지니어링

샘플 주제

학습 수준

연구

​개요

​점수 부여 방법론

​점수 계산 공식

​벤치마크 결과

​평가 요약

​모델 평가자 성능

​향후 개선 사항

개요

점수 부여 방법론

점수 계산 공식

벤치마크 결과

평가 요약

모델 평가자 성능

향후 개선 사항