Research overview
Обзор
Бенчмарк MORPH разработан для оценки качества видеоконтента, созданного с помощью ИИ, с акцентом на морфологическую точность, временную согласованность, риск нарушения авторских прав и другие ключевые визуальные и фактические атрибуты. Этот бенчмарк позволяет объективно сравнивать передовые модели преобразования текста в видео, предлагая как детальную (для каждого видео), так и агрегированную (для каждой модели) оценку.
- Эталонная модель: https://huggingface.co/ChimaAI/MORPH-benchmark
- Обучающий набор данных: https://huggingface.co/datasets/ChimaAI/MORPH-dataset
Методология оценки
Каждое видео оценивается по 7 параметрам:
- Визуальное качество (VQ): Четкость, разрешение, яркость и цвет
- Временная согласованность (TC): Согласованность объектов или людей в видео
- Степень динамичности (DD): Степень динамических изменений
- Соответствие текста и видео (TVA): Соответствие между текстовым запросом и содержанием видео
- Фактическая согласованность (FC): Согласованность со здравым смыслом и фактическими знаниями
- Морфологическая точность (MF): Реализм, анатомическая согласованность и связность человеческих фигур в движении
- Риск нарушения авторских прав (CR): Визуальное сходство с известными медиа
Каждый аспект оценивается по шкале от 1 до 4, где 4 представляет оптимальную производительность.
Формула расчета оценки
Итоговая оценка для видео вычисляется как:
Где Nᵢ - количество аспектов, получивших оценку i (1, 2, 3 или 4).
Example: Для видео с оценками расчет будет:
Результаты бенчмарка
См. model-comparison.mdx для подробных таблиц результатов по моделям и эпохам.
Сводка оценки
- Kling v1.5 имеет наивысшую общую оценку в бенчмарке MORPH, с стабильно высокими показателями как по визуальному качеству, так и по морфологической точности.
- Sora следует близко, с производительностью, весьма сопоставимой с Kling по большинству параметров.
- Luma Ray2 и Ray2 Flash модели также показали хорошие результаты, но иногда демонстрировали проблемы с фактической согласованностью (например, транспортные средства, движущиеся в неправильном направлении на автомагистралях).
- Pixverse v3.5 и v4 обеспечили хорошую морфологическую точность, несмотря на немного более низкий общий рейтинг.
- Модели, такие как Minimax Video-01, Mochi v1, и Wan v2.1-1.3B часто создавали нестабильные фигуры, включая отсутствующие конечности, искаженные руки и исчезающих персонажей между кадрами, что приводило к более низким показателям временной и морфологической согласованности.
Производительность модели-оценщика
- Модель-оценщик достигла среднего коэффициента корреляции Спирмена ~0.50 по сравнению с тестовым набором, размеченным людьми, что соответствует предыдущему эталону VideoScore от Tigerlab.
- Измерение риска нарушения авторских прав показало более низкую корреляцию. Несмотря на избыточную выборку классов, модель по-прежнему испытывает трудности с изучением паттернов, связанных с пограничным или реальным контентом.
- Модель склонна присваивать оценки [4, 4, 4, 4, 4, 4, 3] видео, которые очень похожи на реальные кадры, вероятно, из-за воздействия аналогичных высококачественных реальных видео в обучающем наборе.
Будущие улучшения
- Улучшить разнообразие меток: Увеличить разнообразие обучающих данных, особенно для недостаточно представленных или неоднозначных примеров, чтобы помочь модели лучше обобщать по всем измерениям.
- Усовершенствовать цель оценки: Перейти к подходу оценки на основе регрессии (как в оригинальной модели VideoScore) для более точной и непрерывной обратной связи.
- Масштабировать оценки: Увеличить количество запросов на модель (например, с 10 до 30) для более надежных эталонных тестов и снижения шума выборки.