VOID 详解:奈飞关于视频对象与交互删除的研究 | BGBlur

Y

Yash Thakker

Author

Featured image
演示:本文附带的 VOID 风格片段

当剪辑师谈到"从片段中移除某物"时,他们通常指的是修复填充:隐藏对象并用合理的像素填充空白。由奈飞相关研究人员及合作者开发的 VOID(视频对象与交互删除) 将这一概念延伸到仅靠像素还不够的情形:如果被移除的对象曾经推动、遮挡或偏转了其他物体,那么整个时间轴可能都需要随之改变(项目主页)。

对于正在精修访谈、产品拍摄或社交短片的 BGBlur 读者而言,VOID 是了解学术视频机器学习发展方向的绝佳窗口:反事实视频——不只是处理纹理,更是尊重基本物理规律。

演示:本文附带的 VOID 风格片段

下方视频文件以 /videos/void-demo.mp4 的形式保存在本站,确保播放稳定(已签名的链接会过期)。这是对比无涂抹运动效果与交互感知移除效果的良好参考。

VOID 的工作原理(高层概述)

根据 VOID 官网及论文(arXiv:2604.02296):

  1. 用户选择标记需要移除的对象。
  2. 视觉语言模型(VLM) 推断哪些其他区域受到因果影响(应当下落、弹射或重新路由的物体)。
  3. 该引导信息被编码至整体架构中以 SAM 2 为辅助的 CogVideoX-5B 视频扩散主干网络。
  4. 若首次合成结果出现对象变形可选的精炼步骤将使用光流扭曲噪声进行修正——作者将这一失败模式归因于较小的视频扩散模型。

训练过程依赖合成数据及动作丰富的配对数据(包括 KubricHUMOTO,详见其页面摘要),使网络能够学习到"删除对象 A"实际上意味着改变整个交互过程的示例。

Runway、ProPainter 与质量评估

VOID 将自身定位为视频对象移除领域强基线的竞争者;在其材料中,您可以看到包含 Runway 类及文献中 ProPainter 相关参考的对比结果。请将这些视为论文层面的参考:它们反映的是特定数据集和指标,并不适用于所有真实场景。

无论使用哪种工具,创作者始终关注同样的标准:时间一致性无涂抹痕迹,以及背景运动是否显得自然流畅。

BGB(BgRemover)集成与现有功能

BgRemover.video 上的 BgRemover(BGB)已经提供团队如今交付所需的、干净且具备伪影感知的视频对象与背景移除能力——这正是 VOID 在此基础上针对更复杂物理场景进行构建的基础。

我们的路线图:将 VOID 视为交互感知遮罩和训练信号的设计蓝图,一旦其在生产级别的服务质量要求上足够稳健,便将其融合进 BGBBGBlur 继续专注于电影级背景虚化和隐私类特效,BGB 依然是移除功能的核心产品——因此集成工作将通过您已在使用的同一产品系列推进。

常见问题

"交互删除"是什么意思?

移除一个对象,同时更新与该对象存在物理关联的其他对象的运动方式——依据 VOID 在 void-model.github.io 上的定义。

VOID 是否以消费级应用的形式提供?

目前公开的成果属于研究级别;BgRemover 等生产级工具目前仍是执行移除任务的实用选择。

官方文档在哪里查阅?

参考文献

  • 萨曼·莫塔梅德、威廉·哈维、本杰明·克莱因、吕克·范·高尔、袁卓宁、郑大颖,VOID:视频对象与交互删除,2026 年。https://arxiv.org/abs/2604.02296
Published on April 4, 2026
EN
Share this post
VOID 详解:奈飞关于视频对象与交互删除的研究 | BGBlur