VOID Expliqué : La Recherche Netflix sur la Suppression d'Objets et d'Interactions Vidéo | BGBlur

Y

Yash Thakker

Author

Featured image
Démo : le clip de style VOID que nous avons joint à cet article

Quand les monteurs parlent de « supprimer quelque chose d'un clip », ils font généralement référence à l'inpainting : masquer l'objet et remplir des pixels plausibles. VOID (Suppression d'Objets et d'Interactions Vidéo)—de chercheurs affiliés à Netflix et de collaborateurs—étend cela aux cas où les pixels seuls ne suffisent pas : si un objet supprimé a poussé, bloqué ou dévié quelque chose d'autre, toute la chronologie peut avoir besoin de changer (site du projet).

Pour les lecteurs de BGBlur qui peaufinent des interviews, des prises de produits ou des montages pour les réseaux sociaux, VOID est un bon aperçu de la direction que prend le ML vidéo académique : une vidéo contrefactuelle qui respecte la physique simple, pas seulement la texture.

Démo : le clip de style VOID que nous avons joint à cet article

Le MP4 ci-dessous est le fichier joint de l'utilisateur GitHub, livré en tant que /videos/void-demo.mp4 sur ce site pour que la lecture reste fiable (les URL signées de GitHub expirent). C'est une bonne vérification de cohérence pour le mouvement sans taches par rapport à la suppression consciente des interactions.

Comment fonctionne VOID (vue d'ensemble)

Selon le site et l'article de VOID (arXiv:2604.02296) :

  1. La sélection de l'utilisateur met en évidence un objet à supprimer.
  2. Un modèle de langage visuel (VLM) estime quelles autres régions sont causalement affectées (des éléments qui devraient tomber, ricocher ou se rediriger).
  3. Cette orientation est encodée pour un backbone de diffusion vidéo décrit comme utilisant CogVideoX-5B avec SAM 2 dans l'ensemble de la pile.
  4. Un passage de raffinement optionnel utilise du bruit déformé par flux si la première synthèse transforme des objets—un mode d'échec que les auteurs associent aux modèles de diffusion vidéo plus petits.

L'entraînement s'appuie sur des données appariées synthétiques / riches en mouvement (dont Kubric et HUMOTO, résumés sur leur page) afin que le réseau voie des exemples où « supprimer l'objet A » signifie vraiment « modifier toute l'interaction. »

Runway, ProPainter et l'évaluation de la qualité

VOID se positionne face à des lignes de base solides dans la suppression d'objets vidéo ; dans leurs matériaux, vous verrez des comparaisons incluant des références de classe Runway et liées à ProPainter issues de la littérature. Utilisez-les comme guide au niveau de l'article : elles reflètent des jeux de données et des métriques spécifiques, pas tous les cas réels.

Avec tous les outils, les créateurs jugent toujours les mêmes choses : la cohérence temporelle, l'absence de bavures, et si le mouvement de l'arrière-plan semble intentionnel.

Intégration de BGB (BgRemover) et ce qui fonctionne déjà

BgRemover (BGB) sur BgRemover.video offre déjà le type de suppression d'objets et d'arrière-plans vidéo propre et consciente des artefacts que les équipes livrent aujourd'hui—la ligne de base sur laquelle VOID s'appuie pour les cas de physique plus complexes.

Notre feuille de route : traiter VOID comme un modèle pour les signaux de masquage et d'entraînement conscients des interactions que nous pouvons intégrer dans BGB une fois qu'ils sont suffisamment robustes pour les SLA de production. BGBlur reste concentré sur le flou cinématographique d'arrière-plan et les effets de confidentialité, tandis que BGB reste le foyer de la suppression—donc le travail d'intégration passe par la même famille de produits que vous utilisez déjà.

Foire Aux Questions

Que signifie « suppression d'interactions » ?

Supprimer un objet et mettre à jour la façon dont les autres objets se déplacent lorsqu'ils étaient physiquement couplés à lui—selon le cadre de VOID sur void-model.github.io.

VOID est-il disponible en tant qu'application grand public ?

Les artefacts publics actuels sont de niveau recherche ; les outils de production comme BgRemover continuent d'offrir la voie pratique pour les suppressions dès maintenant.

Où se trouve l'article officiel ?

Références

  • Saman Motamed, William Harvey, Benjamin Klein, Luc Van Gool, Zhuoning Yuan, Ta-Ying Cheng, VOID: Video Object and Interaction Deletion, 2026. https://arxiv.org/abs/2604.02296
Published on April 4, 2026
EN
Share this post
VOID Expliqué : La Recherche Netflix sur la Suppression d'Objets et d'Interactions Vidéo | BGBlur