VOID Erklärt: Netflix-Forschung zu Video-Objekt- und Interaktionslöschung

Wenn Editoren über das „Entfernen von etwas aus einem Clip" sprechen, meinen sie meist Inpainting: das Objekt verbergen und plausible Pixel auffüllen. VOID (Video Object and Interaction Deletion)—von Netflix-nahen Forschern und Kollaborateuren—erweitert dies auf Fälle, in denen Pixel allein nicht ausreichen: Wenn ein entferntes Objekt etwas anderes gestoßen, blockiert oder abgelenkt hat, muss sich möglicherweise die gesamte Zeitlinie ändern (Projektseite).

Für BGBlur-Leser, die Interviews, Produktaufnahmen oder Social-Cuts verfeinern, ist VOID ein guter Überblick darüber, wohin akademisches Video-ML sich entwickelt: kontrafaktisches Video, das einfache Physik respektiert, nicht nur Textur.

Try Now →

Demo: Der VOID-artige Clip, den wir diesem Beitrag beigefügt haben

Das MP4 unten ist der von GitHub bereitgestellte Nutzeranhang, der als /videos/void-demo.mp4 auf dieser Seite gespeichert ist, damit die Wiedergabe zuverlässig bleibt (signierte GitHub-URLs laufen ab). Es ist ein guter Kontrollpunkt für schlierfreie Bewegung im Vergleich zur interaktionsbewussten Entfernung.

Wie VOID funktioniert (auf hohem Niveau)

Gemäß der VOID-Seite und dem Paper (arXiv:2604.02296):

Die Nutzerauswahl markiert ein zu entfernendes Objekt.
Ein Vision-Language-Modell (VLM) schätzt, welche anderen Bereiche kausal betroffen sind (Dinge, die fallen, abprallen oder umgeleitet werden sollten).
Diese Orientierung wird für einen Video-Diffusions-Backbone kodiert, der laut dem Gesamtsystem CogVideoX-5B mit SAM 2 verwendet.
Ein optionaler Verfeinerungsdurchlauf nutzt fluss-verwarptes Rauschen, wenn die erste Synthese Objekte verformt – ein Versagensmodus, den die Autoren mit kleineren Video-Diffusionsmodellen in Verbindung bringen.

Das Training stützt sich auf synthetische/bewegungsreiche, gepaarte Daten (einschließlich Kubric und HUMOTO, wie auf ihrer Seite zusammengefasst), damit das Netzwerk Beispiele sieht, bei denen „Objekt A löschen" wirklich bedeutet, „die gesamte Interaktion zu ändern."

Runway, ProPainter und die Bewertung von Qualität

VOID positioniert sich gegenüber starken Grundlinien bei der Video-Objektentfernung; in ihren Materialien werden Vergleiche angezeigt, die Runway-ähnliche und ProPainter-bezogene Referenzen aus der Literatur enthalten. Verwenden Sie diese als Paper-Ebenen-Orientierung: Sie spiegeln spezifische Datensätze und Metriken wider, nicht jeden realen Anwendungsfall.

Über alle Werkzeuge hinweg beurteilen Ersteller dieselben Dinge: zeitliche Konsistenz, fehlende Schmierstreifen und ob die Hintergrundbewegung absichtlich aussieht.

BGB (BgRemover) Integration und was bereits funktioniert

BgRemover (BGB) unter BgRemover.video liefert bereits die Art von sauberer, artefaktbewusster Video-Objekt- und Hintergrundentfernung, die Teams heute ausliefern—die Grundlage, auf der VOID für schwierigere Physikfälle aufbaut.

Unsere Roadmap: VOID als Blaupause für interaktionsbewusstes Masking und Trainingssignale behandeln, die wir in BGB integrieren können, sobald sie robust genug für Produktions-SLAs sind. BGBlur bleibt auf cinematische Hintergrundunschärfe und datenschutzartige Effekte fokussiert, während BGB die Heimat für Entfernung bleibt—daher fließt die Integrationsarbeit durch dieselbe Produktfamilie, die Sie bereits nutzen.

Häufig gestellte Fragen

Was bedeutet „Interaktionslöschung"?

Ein Objekt entfernen und aktualisieren, wie sich andere Objekte bewegen, wenn sie physisch damit gekoppelt waren—gemäß VOIDs Formulierung auf void-model.github.io.

Ist VOID als Verbraucheranwendung verfügbar?

Die öffentlichen Artefakte sind heute forschungstauglich; Produktionswerkzeuge wie BgRemover bieten weiterhin den praktischen Weg für Entfernungen.

Wo ist die offizielle Beschreibung?

Paper: arXiv:2604.02296
Seite: https://void-model.github.io

Referenzen

Saman Motamed, William Harvey, Benjamin Klein, Luc Van Gool, Zhuoning Yuan, Ta-Ying Cheng, VOID: Video Object and Interaction Deletion, 2026. https://arxiv.org/abs/2604.02296

Blur anything in your videos with precision