VOID Explicado: Investigación de Netflix sobre Eliminación de Objetos e Interacciones en Video | BGBlur

Y

Yash Thakker

Author

Featured image
Demo: el clip estilo VOID que adjuntamos a esta publicación

Cuando los editores hablan de "eliminar algo de un clip," generalmente se refieren al inpainting: ocultar el objeto y rellenar píxeles plausibles. VOID (Eliminación de Objetos e Interacciones en Video)—de investigadores afiliados a Netflix y colaboradores—extiende esto a casos donde los píxeles solos no son suficientes: si un objeto eliminado empujó, bloqueó o desvió algo más, toda la línea de tiempo puede necesitar cambiar (sitio del proyecto).

Para los lectores de BGBlur que pulen entrevistas, tomas de productos o cortes para redes sociales, VOID es un buen resumen de hacia dónde se dirige el aprendizaje automático académico de video: video contrafactual que respeta la física simple, no solo la textura.

Demo: el clip estilo VOID que adjuntamos a esta publicación

El MP4 a continuación es el archivo adjunto de usuario de GitHub, entregado como /videos/void-demo.mp4 en este sitio para que la reproducción sea confiable (las URL firmadas de GitHub expiran). Es una buena verificación de cordura para el movimiento libre de manchas en comparación con la eliminación consciente de interacciones.

Cómo funciona VOID (nivel general)

Según el sitio y el artículo de VOID (arXiv:2604.02296):

  1. La selección del usuario resalta un objeto para eliminar.
  2. Un modelo de lenguaje visual (VLM) estima qué otras regiones están causalmente afectadas (cosas que deberían caer, rebotar o redirigirse).
  3. Esa orientación se codifica para un backbone de difusión de video descrito como usando CogVideoX-5B con SAM 2 en el conjunto general.
  4. Un paso de refinamiento opcional utiliza ruido con deformación de flujo si la primera síntesis transforma objetos—un modo de fallo que los autores asocian con modelos de difusión de video más pequeños.

El entrenamiento se apoya en datos emparejados sintéticos / ricos en movimiento (incluyendo Kubric y HUMOTO, como se resume en su página) para que la red vea ejemplos donde "eliminar el objeto A" realmente significa "cambiar toda la interacción."

Runway, ProPainter y evaluación de calidad

VOID se posiciona frente a líneas de base sólidas en la eliminación de objetos de video; en sus materiales verás comparaciones que incluyen referencias de clase Runway y relacionadas con ProPainter de la literatura. Úsalas como orientación a nivel de artículo: reflejan conjuntos de datos y métricas específicos, no todos los proyectos del mundo real.

En todas las herramientas, los creadores siguen juzgando las mismas cosas: consistencia temporal, ausencia de manchas, y si el movimiento del fondo parece intencional.

Integración de BGB (BgRemover) y lo que ya funciona

BgRemover (BGB) en BgRemover.video ya ofrece el tipo de eliminación de objetos y fondos de video limpia y consciente de artefactos que los equipos entregan hoy—la línea de base sobre la que VOID construye para casos de física más complejos.

Nuestra hoja de ruta: tratar a VOID como un modelo para señales de enmascaramiento e entrenamiento conscientes de la interacción que podemos integrar en BGB una vez que sean lo suficientemente robustas para los SLA de producción. BGBlur se mantiene enfocado en el desenfoque cinematográfico de fondos y efectos de privacidad, mientras que BGB sigue siendo el hogar para la eliminación—por lo que el trabajo de integración se canaliza a través de la misma familia de productos que ya utilizas.

Preguntas Frecuentes

¿Qué significa "eliminación de interacciones"?

Eliminar un objeto y actualizar cómo se mueven otros objetos cuando estaban físicamente acoplados a él—según el marco de VOID en void-model.github.io.

¿Está disponible VOID como aplicación de consumo?

Los artefactos públicos hoy son de grado de investigación; las herramientas de producción como BgRemover siguen ofreciendo el camino práctico para las eliminaciones en este momento.

¿Dónde está el artículo oficial?

Referencias

  • Saman Motamed, William Harvey, Benjamin Klein, Luc Van Gool, Zhuoning Yuan, Ta-Ying Cheng, VOID: Video Object and Interaction Deletion, 2026. https://arxiv.org/abs/2604.02296
Published on April 4, 2026
EN
Share this post
VOID Explicado: Investigación de Netflix sobre Eliminación de Objetos e Interacciones en Video | BGBlur