VOID Объяснение: Исследование Netflix по Удалению Объектов и Взаимодействий в Видео | BGBlur

Когда монтажёры говорят о «удалении чего-либо из клипа», они обычно имеют в виду inpainting: скрыть объект и заполнить правдоподобные пиксели. VOID (Удаление Объектов и Взаимодействий в Видео)—от исследователей, аффилированных с Netflix, и их соавторов—расширяет это до случаев, когда одних пикселей недостаточно: если удалённый объект толкал, блокировал или отклонял что-то ещё, возможно, потребуется изменить всю временну́ю шкалу (сайт проекта).
Для читателей BGBlur, которые полируют интервью, предметные съёмки или социальные монтажи, VOID — хороший обзор того, куда движется академическое видео-машинное обучение: контрфактическое видео, которое уважает простую физику, а не только текстуру.
Демо: клип в стиле VOID, прикреплённый к этой публикации
MP4 ниже — это пользовательское вложение с GitHub, размещённое как /videos/void-demo.mp4 на этом сайте, чтобы воспроизведение оставалось надёжным (подписанные URL GitHub истекают). Это хорошая проверка для движения без артефактов по сравнению с удалением с учётом взаимодействий.
Как работает VOID (на высоком уровне)
Согласно сайту и статье VOID (arXiv:2604.02296):
- Выбор пользователя выделяет объект для удаления.
- Визуально-языковая модель (VLM) оценивает, какие другие области причинно затронуты (вещи, которые должны упасть, отскочить или перенаправиться).
- Это руководство кодируется для диффузионного бэкбона видео, описанного как использующий CogVideoX-5B с SAM 2 в общем стеке.
- Необязательный проход уточнения использует шум с деформацией потока, если первый синтез трансформирует объекты — режим отказа, который авторы связывают с меньшими моделями видеодиффузии.
Обучение опирается на синтетические / богатые движением парные данные (включая Kubric и HUMOTO, как обобщено на их странице), чтобы сеть видела примеры, где «удалить объект A» действительно означает «изменить всё взаимодействие».
Runway, ProPainter и оценка качества
VOID позиционирует себя относительно сильных базовых методов в удалении объектов из видео; в их материалах вы увидите сравнения, включающие ссылки класса Runway и связанные с ProPainter из литературы. Используйте их как руководство на уровне статьи: они отражают конкретные наборы данных и метрики, а не каждый реальный проект.
Во всех инструментах создатели по-прежнему оценивают одно и то же: временну́ю согласованность, отсутствие размазанностей и то, выглядит ли движение фона намеренным.
Интеграция BGB (BgRemover) и что уже работает
BgRemover (BGB) на BgRemover.video уже обеспечивает тот вид чистого, учитывающего артефакты удаления объектов и фонов из видео, который команды используют сегодня—базовая линия, на которой VOID строится для более сложных физических случаев.
Наша дорожная карта: рассматривать VOID как план для учитывающих взаимодействия сигналов маскирования и обучения, которые мы можем объединить с BGB, как только они станут достаточно надёжными для производственных SLA. BGBlur остаётся сосредоточенным на кинематографическом размытии фона и эффектах конфиденциальности, а BGB остаётся домом для удаления — поэтому работа по интеграции идёт через ту же линейку продуктов, которую вы уже используете.
Часто Задаваемые Вопросы
Что означает «удаление взаимодействий»?
Удаление объекта и обновление того, как другие объекты движутся, когда они были физически связаны с ним — согласно концепции VOID на void-model.github.io.
Доступен ли VOID как потребительское приложение?
Публичные артефакты сегодня имеют исследовательский уровень; производственные инструменты, такие как BgRemover, по-прежнему предлагают практический путь для удалений прямо сейчас.
Где находится официальная публикация?
- Статья: arXiv:2604.02296
- Сайт: https://void-model.github.io
Список Литературы
- Saman Motamed, William Harvey, Benjamin Klein, Luc Van Gool, Zhuoning Yuan, Ta-Ying Cheng, VOID: Video Object and Interaction Deletion, 2026. https://arxiv.org/abs/2604.02296