VOID समझाया गया: वीडियो ऑब्जेक्ट और इंटरैक्शन डिलीशन पर Netflix का शोध | BGBlur

Y

Yash Thakker

Author

Featured image
डेमो: VOID-शैली का क्लिप जो हमने इस पोस्ट के साथ संलग्न किया

जब एडिटर "किसी क्लिप से कुछ हटाने" की बात करते हैं, तो उनका आमतौर पर मतलब inpainting होता है: ऑब्जेक्ट को छुपाना और उचित पिक्सेल भरना। VOID (वीडियो ऑब्जेक्ट और इंटरैक्शन डिलीशन)—Netflix से संबद्ध शोधकर्ताओं और सहयोगियों की ओर से—इसे उन मामलों तक बढ़ाता है जहाँ अकेले पिक्सेल पर्याप्त नहीं होते: यदि किसी हटाए गए ऑब्जेक्ट ने किसी चीज़ को धकेला, रोका या मोड़ा, तो पूरी टाइमलाइन को बदलने की ज़रूरत पड़ सकती है (प्रोजेक्ट साइट)।

BGBlur के उन पाठकों के लिए जो इंटरव्यू, प्रोडक्ट शॉट्स या सोशल कट्स को निखारते हैं, VOID इस बात का एक अच्छा अवलोकन है कि अकादमिक वीडियो ML किस दिशा में जा रहा है: काउंटरफैक्चुअल वीडियो जो साधारण भौतिकी का सम्मान करता है, न केवल टेक्सचर का।

डेमो: VOID-शैली का क्लिप जो हमने इस पोस्ट के साथ संलग्न किया

नीचे दी गई MP4 GitHub यूज़र-अटैचमेंट है, जिसे इस साइट पर /videos/void-demo.mp4 के रूप में दिया गया है ताकि प्लेबैक विश्वसनीय रहे (साइन किए गए GitHub URL समाप्त हो जाते हैं)। यह इंटरैक्शन-जागरूक हटाने की तुलना में दाग-रहित गति के लिए एक अच्छा सेनिटी चेक है।

VOID कैसे काम करता है (उच्च स्तर पर)

VOID साइट और पेपर (arXiv:2604.02296) के अनुसार:

  1. यूज़र सिलेक्शन हटाए जाने वाले ऑब्जेक्ट को हाइलाइट करता है।
  2. एक विज़न-लैंग्वेज मॉडल (VLM) अनुमान लगाता है कि कौन से अन्य क्षेत्र कारणात्मक रूप से प्रभावित हैं (जो चीज़ें गिरनी, उछलनी या रास्ता बदलनी चाहिए)।
  3. वह मार्गदर्शन एक वीडियो डिफ्यूज़न बैकबोन के लिए एन्कोड किया जाता है जिसे समग्र स्टैक में CogVideoX-5B के साथ SAM 2 का उपयोग करने के रूप में वर्णित किया गया है।
  4. एक वैकल्पिक रिफाइनमेंट पास फ्लो-वार्प्ड नॉइज़ का उपयोग करता है यदि पहला सिंथेसिस ऑब्जेक्ट को विकृत करता है—एक विफलता मोड जिसे लेखक छोटे वीडियो डिफ्यूज़न मॉडल से जोड़ते हैं।

ट्रेनिंग सिंथेटिक / मोशन-रिच पेयर्ड डेटा पर निर्भर करती है (जिसमें Kubric और HUMOTO शामिल हैं, जैसा उनके पेज पर सारांशित है) ताकि नेटवर्क ऐसे उदाहरण देखे जहाँ "ऑब्जेक्ट A को हटाना" का वास्तव में मतलब है "पूरी इंटरैक्शन को बदलना।"

Runway, ProPainter और गुणवत्ता का मूल्यांकन

VOID वीडियो ऑब्जेक्ट रिमूवल में मज़बूत बेसलाइन के विरुद्ध खुद को पोज़िशन करता है; उनकी सामग्री में आप ऐसी तुलनाएँ देखेंगे जिनमें साहित्य से Runway-क्लास और ProPainter-संबंधित संदर्भ शामिल हैं। इन्हें पेपर-स्तरीय मार्गदर्शन के रूप में उपयोग करें: वे विशिष्ट डेटासेट और मेट्रिक्स को दर्शाते हैं, हर वास्तविक दुनिया के मामले को नहीं।

सभी टूल्स में, क्रिएटर्स अभी भी एक ही चीज़ें आंकते हैं: टेम्पोरल कंसिस्टेंसी, धब्बों की अनुपस्थिति, और क्या बैकग्राउंड मोशन जानबूझकर लगता है।

BGB (BgRemover) इंटीग्रेशन और क्या पहले से काम करता है

BgRemover.video पर BgRemover (BGB) पहले से ही उस तरह का साफ़, आर्टिफैक्ट-जागरूक वीडियो ऑब्जेक्ट और बैकग्राउंड रिमूवल प्रदान करता है जो टीमें आज शिप करती हैं—वह बेसलाइन जिस पर VOID कठिन भौतिकी मामलों के लिए बनाता है।

हमारा रोडमैप: VOID को इंटरैक्शन-जागरूक मास्किंग और ट्रेनिंग सिग्नल के लिए एक ब्लूप्रिंट के रूप में मानना जिसे हम BGB में मर्ज कर सकते हैं जब वे प्रोडक्शन SLA के लिए पर्याप्त मज़बूत हों। BGBlur सिनेमाई बैकग्राउंड ब्लर और प्राइवेसी-स्टाइल इफेक्ट्स पर केंद्रित रहता है, जबकि BGB रिमूवल के लिए घर बना रहता है—इसलिए इंटीग्रेशन कार्य उसी प्रोडक्ट फैमिली के माध्यम से होता है जिसे आप पहले से उपयोग करते हैं।

अक्सर पूछे जाने वाले प्रश्न

"इंटरैक्शन डिलीशन" का क्या मतलब है?

एक ऑब्जेक्ट को हटाना और यह अपडेट करना कि अन्य ऑब्जेक्ट कैसे चलते हैं जब वे उससे भौतिक रूप से जुड़े हुए थे—void-model.github.io पर VOID के फ्रेमिंग के अनुसार।

क्या VOID एक कंज़्यूमर ऐप के रूप में उपलब्ध है?

आज के सार्वजनिक आर्टिफैक्ट रिसर्च-ग्रेड हैं; BgRemover जैसे प्रोडक्शन टूल अभी के लिए रिमूवल के व्यावहारिक रास्ते प्रदान करते रहते हैं।

आधिकारिक लेख कहाँ है?

संदर्भ

  • Saman Motamed, William Harvey, Benjamin Klein, Luc Van Gool, Zhuoning Yuan, Ta-Ying Cheng, VOID: Video Object and Interaction Deletion, 2026. https://arxiv.org/abs/2604.02296
Published on April 4, 2026
EN
Share this post
VOID समझाया गया: वीडियो ऑब्जेक्ट और इंटरैक्शन डिलीशन पर Netflix का शोध | BGBlur