Обзор

Бенчмарк MORPH разработан для оценки качества видеоконтента, созданного с помощью ИИ, с акцентом на морфологическую точность, временную согласованность, риск нарушения авторских прав и другие ключевые визуальные и фактические атрибуты. Этот бенчмарк позволяет объективно сравнивать передовые модели преобразования текста в видео, предлагая как детальную (для каждого видео), так и агрегированную (для каждой модели) оценку.


Методология оценки

Каждое видео оценивается по 7 параметрам:

  1. Визуальное качество (VQ): Четкость, разрешение, яркость и цвет
  2. Временная согласованность (TC): Согласованность объектов или людей в видео
  3. Степень динамичности (DD): Степень динамических изменений
  4. Соответствие текста и видео (TVA): Соответствие между текстовым запросом и содержанием видео
  5. Фактическая согласованность (FC): Согласованность со здравым смыслом и фактическими знаниями
  6. Морфологическая точность (MF): Реализм, анатомическая согласованность и связность человеческих фигур в движении
  7. Риск нарушения авторских прав (CR): Визуальное сходство с известными медиа

Каждый аспект оценивается по шкале от 1 до 4, где 4 представляет оптимальную производительность.

Формула расчета оценки

Итоговая оценка для видео вычисляется как:

Final Score = ( (1/4) * (N_1 / 7) + (2/4) * (N_2 / 7) + (3/4) * (N_3 / 7) + (4/4) * (N_4 / 7) ) * 100

Где Nᵢ - количество аспектов, получивших оценку i (1, 2, 3 или 4).

Example: Для видео с оценками расчет будет:

Final Score = ( (1/4) * (1 / 7) + (2/4) * (3 / 7) + (3/4) * (1 / 7) + (4/4) * (2 / 7) ) * 100 = 64.28

Результаты бенчмарка

См. model-comparison.mdx для подробных таблиц результатов по моделям и эпохам.


Сводка оценки

  • Kling v1.5 имеет наивысшую общую оценку в бенчмарке MORPH, с стабильно высокими показателями как по визуальному качеству, так и по морфологической точности.
  • Sora следует близко, с производительностью, весьма сопоставимой с Kling по большинству параметров.
  • Luma Ray2 и Ray2 Flash модели также показали хорошие результаты, но иногда демонстрировали проблемы с фактической согласованностью (например, транспортные средства, движущиеся в неправильном направлении на автомагистралях).
  • Pixverse v3.5 и v4 обеспечили хорошую морфологическую точность, несмотря на немного более низкий общий рейтинг.
  • Модели, такие как Minimax Video-01, Mochi v1, и Wan v2.1-1.3B часто создавали нестабильные фигуры, включая отсутствующие конечности, искаженные руки и исчезающих персонажей между кадрами, что приводило к более низким показателям временной и морфологической согласованности.

Производительность модели-оценщика

  • Модель-оценщик достигла среднего коэффициента корреляции Спирмена ~0.50 по сравнению с тестовым набором, размеченным людьми, что соответствует предыдущему эталону VideoScore от Tigerlab.
  • Измерение риска нарушения авторских прав показало более низкую корреляцию. Несмотря на избыточную выборку классов, модель по-прежнему испытывает трудности с изучением паттернов, связанных с пограничным или реальным контентом.
  • Модель склонна присваивать оценки [4, 4, 4, 4, 4, 4, 3] видео, которые очень похожи на реальные кадры, вероятно, из-за воздействия аналогичных высококачественных реальных видео в обучающем наборе.

Будущие улучшения

  • Улучшить разнообразие меток: Увеличить разнообразие обучающих данных, особенно для недостаточно представленных или неоднозначных примеров, чтобы помочь модели лучше обобщать по всем измерениям.
  • Усовершенствовать цель оценки: Перейти к подходу оценки на основе регрессии (как в оригинальной модели VideoScore) для более точной и непрерывной обратной связи.
  • Масштабировать оценки: Увеличить количество запросов на модель (например, с 10 до 30) для более надежных эталонных тестов и снижения шума выборки.