Research overview

Обзор

Бенчмарк MORPH разработан для оценки качества видеоконтента, созданного с помощью ИИ, с акцентом на морфологическую точность, временную согласованность, риск нарушения авторских прав и другие ключевые визуальные и фактические атрибуты. Этот бенчмарк позволяет объективно сравнивать передовые модели преобразования текста в видео, предлагая как детальную (для каждого видео), так и агрегированную (для каждой модели) оценку.

Эталонная модель: https://huggingface.co/ChimaAI/MORPH-benchmark
Обучающий набор данных: https://huggingface.co/datasets/ChimaAI/MORPH-dataset

Методология оценки

Каждое видео оценивается по 7 параметрам:

Визуальное качество (VQ): Четкость, разрешение, яркость и цвет
Временная согласованность (TC): Согласованность объектов или людей в видео
Степень динамичности (DD): Степень динамических изменений
Соответствие текста и видео (TVA): Соответствие между текстовым запросом и содержанием видео
Фактическая согласованность (FC): Согласованность со здравым смыслом и фактическими знаниями
Морфологическая точность (MF): Реализм, анатомическая согласованность и связность человеческих фигур в движении
Риск нарушения авторских прав (CR): Визуальное сходство с известными медиа

Каждый аспект оценивается по шкале от 1 до 4, где 4 представляет оптимальную производительность.

Формула расчета оценки

Итоговая оценка для видео вычисляется как:

Final Score = ( (1/4) * (N_1 / 7) + (2/4) * (N_2 / 7) + (3/4) * (N_3 / 7) + (4/4) * (N_4 / 7) ) * 100

Где Nᵢ - количество аспектов, получивших оценку i (1, 2, 3 или 4).

Example: Для видео с оценками расчет будет:

Final Score = ( (1/4) * (1 / 7) + (2/4) * (3 / 7) + (3/4) * (1 / 7) + (4/4) * (2 / 7) ) * 100 = 64.28

Результаты бенчмарка

См. model-comparison.mdx для подробных таблиц результатов по моделям и эпохам.

Сводка оценки

Kling v1.5 имеет наивысшую общую оценку в бенчмарке MORPH, с стабильно высокими показателями как по визуальному качеству, так и по морфологической точности.
Sora следует близко, с производительностью, весьма сопоставимой с Kling по большинству параметров.
Luma Ray2 и Ray2 Flash модели также показали хорошие результаты, но иногда демонстрировали проблемы с фактической согласованностью (например, транспортные средства, движущиеся в неправильном направлении на автомагистралях).
Pixverse v3.5 и v4 обеспечили хорошую морфологическую точность, несмотря на немного более низкий общий рейтинг.
Модели, такие как Minimax Video-01, Mochi v1, и Wan v2.1-1.3B часто создавали нестабильные фигуры, включая отсутствующие конечности, искаженные руки и исчезающих персонажей между кадрами, что приводило к более низким показателям временной и морфологической согласованности.

Производительность модели-оценщика

Модель-оценщик достигла среднего коэффициента корреляции Спирмена ~0.50 по сравнению с тестовым набором, размеченным людьми, что соответствует предыдущему эталону VideoScore от Tigerlab.
Измерение риска нарушения авторских прав показало более низкую корреляцию. Несмотря на избыточную выборку классов, модель по-прежнему испытывает трудности с изучением паттернов, связанных с пограничным или реальным контентом.
Модель склонна присваивать оценки [4, 4, 4, 4, 4, 4, 3] видео, которые очень похожи на реальные кадры, вероятно, из-за воздействия аналогичных высококачественных реальных видео в обучающем наборе.

Будущие улучшения

Улучшить разнообразие меток: Увеличить разнообразие обучающих данных, особенно для недостаточно представленных или неоднозначных примеров, чтобы помочь модели лучше обобщать по всем измерениям.
Усовершенствовать цель оценки: Перейти к подходу оценки на основе регрессии (как в оригинальной модели VideoScore) для более точной и непрерывной обратной связи.
Масштабировать оценки: Увеличить количество запросов на модель (например, с 10 до 30) для более надежных эталонных тестов и снижения шума выборки.

Общие сведения

Введение

Prompt Engineering

Примеры тем

Уровни обучения

Исследования

Research overview

Обзор

Методология оценки

Формула расчета оценки

Результаты бенчмарка

Сводка оценки

Производительность модели-оценщика

Будущие улучшения

Общие сведения

Введение

Prompt Engineering

Примеры тем

Уровни обучения

Исследования

​Обзор

​Методология оценки

​Формула расчета оценки

​Результаты бенчмарка

​Сводка оценки

​Производительность модели-оценщика

​Будущие улучшения

Обзор

Методология оценки

Формула расчета оценки

Результаты бенчмарка

Сводка оценки

Производительность модели-оценщика

Будущие улучшения