Yash Thakker
Author

Quando i montatori parlano di "rimuovere qualcosa da una clip," di solito intendono l'inpainting: nascondere l'oggetto e riempire i pixel plausibili. VOID (Video Object and Interaction Deletion)—da ricercatori affiliati a Netflix e collaboratori—estende questo ai casi in cui i soli pixel non sono sufficienti: se un oggetto rimosso ha spinto, bloccato o deviato qualcos'altro, l'intera sequenza temporale potrebbe dover cambiare (sito del progetto).
Per i lettori di BGBlur che rifiniscono interviste, riprese di prodotti o montaggi social, VOID è un'ottima panoramica di dove sta andando il machine learning video accademico: video controfattuale che rispetta la fisica semplice, non solo la texture.
L'MP4 qui sotto è l'allegato utente di GitHub, distribuito come /videos/void-demo.mp4 su questo sito affinché la riproduzione rimanga affidabile (gli URL firmati di GitHub scadono). È un buon test di controllo per il movimento senza sbavature rispetto alla rimozione con consapevolezza delle interazioni.
Secondo il sito e il documento di VOID (arXiv:2604.02296):
L'addestramento si basa su dati sintetici/ricchi di movimento accoppiati (inclusi Kubric e HUMOTO, come riassunto nella loro pagina) in modo che la rete veda esempi in cui "eliminare l'oggetto A" significa davvero "cambiare l'intera interazione."
VOID si posiziona contro solide linee di base nella rimozione di oggetti video; nei loro materiali si vedranno confronti che includono riferimenti di classe Runway e correlati a ProPainter dalla letteratura. Usateli come guida a livello accademico: riflettono dataset e metriche specifici, non ogni situazione reale.
Tra gli strumenti, i creatori giudicano sempre le stesse cose: coerenza temporale, assenza di sbavature e se il movimento dello sfondo sembra intenzionale.
BgRemover (BGB) su BgRemover.video offre già il tipo di rimozione di oggetti e sfondi video pulita e priva di artefatti che i team distribuiscono oggi — la linea di base su cui VOID si costruisce per i casi fisici più complessi.
La nostra tabella di marcia: trattare VOID come un modello per il mascheramento consapevole delle interazioni e i segnali di addestramento che possiamo unire a BGB una volta che siano abbastanza robusti per i livelli di servizio di produzione. BGBlur rimane focalizzato sulla sfocatura dello sfondo cinematografica e sugli effetti di privacy, mentre BGB rimane la destinazione per la rimozione — quindi il lavoro di integrazione confluisce nella stessa famiglia di prodotti che già utilizzate.
Rimuovere un oggetto e aggiornare il modo in cui gli altri oggetti si muovono quando erano fisicamente collegati ad esso — secondo la formulazione di VOID su void-model.github.io.
Gli artefatti pubblici oggi sono di livello ricerca; gli strumenti di produzione come BgRemover continuano a offrire il percorso pratico per le rimozioni in questo momento.