VOID 详解：奈飞关于视频对象与交互删除的研究

当剪辑师谈到"从片段中移除某物"时，他们通常指的是修复填充：隐藏对象并用合理的像素填充空白。由奈飞相关研究人员及合作者开发的 VOID（视频对象与交互删除） 将这一概念延伸到仅靠像素还不够的情形：如果被移除的对象曾经推动、遮挡或偏转了其他物体，那么整个时间轴可能都需要随之改变（项目主页）。

对于正在精修访谈、产品拍摄或社交短片的 BGBlur 读者而言，VOID 是了解学术视频机器学习发展方向的绝佳窗口：反事实视频——不只是处理纹理，更是尊重基本物理规律。

Try Now →

演示：本文附带的 VOID 风格片段

下方视频文件以 /videos/void-demo.mp4 的形式保存在本站，确保播放稳定（已签名的链接会过期）。这是对比无涂抹运动效果与交互感知移除效果的良好参考。

VOID 的工作原理（高层概述）

根据 VOID 官网及论文（arXiv:2604.02296）：

用户选择标记需要移除的对象。
视觉语言模型（VLM） 推断哪些其他区域受到因果影响（应当下落、弹射或重新路由的物体）。
该引导信息被编码至整体架构中以 SAM 2 为辅助的 CogVideoX-5B 视频扩散主干网络。
若首次合成结果出现对象变形，可选的精炼步骤将使用光流扭曲噪声进行修正——作者将这一失败模式归因于较小的视频扩散模型。

训练过程依赖合成数据及动作丰富的配对数据（包括 Kubric 和 HUMOTO，详见其页面摘要），使网络能够学习到"删除对象 A"实际上意味着改变整个交互过程的示例。

Runway、ProPainter 与质量评估

VOID 将自身定位为视频对象移除领域强基线的竞争者；在其材料中，您可以看到包含 Runway 类及文献中 ProPainter 相关参考的对比结果。请将这些视为论文层面的参考：它们反映的是特定数据集和指标，并不适用于所有真实场景。

无论使用哪种工具，创作者始终关注同样的标准：时间一致性、无涂抹痕迹，以及背景运动是否显得自然流畅。

BGB（BgRemover）集成与现有功能

BgRemover.video 上的 BgRemover（BGB）已经提供团队如今交付所需的、干净且具备伪影感知的视频对象与背景移除能力——这正是 VOID 在此基础上针对更复杂物理场景进行构建的基础。

我们的路线图：将 VOID 视为交互感知遮罩和训练信号的设计蓝图，一旦其在生产级别的服务质量要求上足够稳健，便将其融合进 BGB。BGBlur 继续专注于电影级背景虚化和隐私类特效，BGB 依然是移除功能的核心产品——因此集成工作将通过您已在使用的同一产品系列推进。

常见问题

"交互删除"是什么意思？

移除一个对象，同时更新与该对象存在物理关联的其他对象的运动方式——依据 VOID 在 void-model.github.io 上的定义。

VOID 是否以消费级应用的形式提供？

目前公开的成果属于研究级别；BgRemover 等生产级工具目前仍是执行移除任务的实用选择。

官方文档在哪里查阅？

论文：arXiv:2604.02296
官网：https://void-model.github.io

参考文献

萨曼·莫塔梅德、威廉·哈维、本杰明·克莱因、吕克·范·高尔、袁卓宁、郑大颖，VOID：视频对象与交互删除，2026 年。https://arxiv.org/abs/2604.02296

Blur anything in your videos with precision