事件相机 港大 AI视频生成入选ICIP 无需训练实现可控视频生成

在这个信息爆炸的时代,如何让AI生成的视频更具创意,又符合特定需求?

来自 香港大学 的最新研究 《基于事件、无需训练的可控视频生成框架 CUBE》 带来一个全新的解决方案。

这一框架利用了 事件相机 捕捉动态边缘的能力,将AI生成的视频带入了一个新的维度,精准又高效。论文原标题是“Controllable Unsupervised Event-based Video Generation”,

发表于图像处理盛会ICIP并被选为Oral(口头报告),并受邀在WACV workshop演讲。

什么是事件相机?

在深入了解CUBE框架之前,先来认识一下事件相机。

不同于传统相机的定时捕捉,事件相机模仿生物的视觉系统, 只捕捉像素点亮度变化的“事件” ,就像是只记录画面的精华部分。

这样不仅可以有效 减少冗余数据 ,还可以显著 降低耗能

尤其是在高速动态或光线变化大的场景下,事件相机比传统相机更有优势。而这些独特的“事件数据”正是CUBE框架的核心。

左:普通相机拍的;右:事件相机拍的

简单说,事件相机和普通相机不同,捕捉的是物体边缘的动态细节,就像你脑中一闪而过的灵感,节省了大量带宽还能省电。

CUBE框架结合了这些“闪现”的边缘数据和文字描述,无需训练就能合成符合需求的视频!这不仅能让你生成的场景更“合胃口”,还能让视频质量、时间一致性和文本匹配度都蹭蹭上涨。

为什么要用CUBE?

其他方法或是需要大量训练数据,或是生成效果欠佳。CUBE框架不仅解决了这些问题,还在多项指标上表现出色。

无论是 视觉效果 文本匹配度 还是 帧间一致性 ,CUBE都表现优异。

可以这样想:CUBE就像给事件相机配上了智能“滤镜”,让生成的视频不仅生动还符合描述,比如让铁人也能在马路上跳起月球舞步!

CUBE框架是如何工作的?

CUBE的全称是“Controllable, Unsupervised, Based on Events”,直译过来就是 “可控的、无需训练的、基于事件的” 视频生成框架。

它通过提取事件中的边缘信息,再结合用户提供的文字描述生成视频。在方法上,CUBE主要依赖扩散模型生成技术。

扩散模型通过向图像添加随机噪声并逐步还原来生成图片,但团队进一步优化了这个过程,能让它根据“事件”提供的边缘数据生成视频。

CUBE的核心方法

1. 边缘提取: 事件流记录了物体运动的轨迹,而CUBE的首要任务就是将这些事件转换成边缘信息。团队设计了一个边缘提取模块,把事件数据分成多个时间段,提取出关键的空间位置,从而形成精确的边缘图。这些边缘图不仅保留了运动物体的轮廓,还能让视频生成更流畅。

2. 视频生成: 有了边缘数据之后,CUBE结合了文字描述生成视频。通过扩散模型的逐步还原过程,可以生成多个与描述相匹配的图像帧,并用插帧技术让视频更加平滑一致。这个过程不需要大量的训练数据,因为CUBE直接调用了预训练的扩散模型来实现高质量生成。

3. 控制性与一致性: 采用了ControlVideo框架,这一框架具有优秀的可控性,通过文字描述来控制生成的视频内容,使每帧的生成都符合特定的要求。ControlVideo和CUBE的组合解决了传统方法中视频生成一致性不足的问题,让内容更生动、更贴合描述。

CUBE的性能表现

在实验中,CUBE的表现远超现有方法。在视频质量、文本匹配度和时间一致性等多个指标上,CUBE都取得了优异的成绩。

定量实验显示,CUBE生成的帧间一致性和文本匹配度都比ControlNet、ControlVideo等方法更优。此外,团队还做了用户偏好测试,结果显示参与者普遍更喜欢CUBE生成的视频。

未来展望

当然,CUBE还有提升的空间。未来团队希望将边缘信息和纹理信息结合,使视频更具细节和真实感,同时探索更多领域适用性,甚至将其应用在实时场景中。这一技术不仅适合电影、动画生成等领域,还可以用于自动驾驶、监控等需要快速识别动态环境的场景。

CUBE不仅是一项技术,更是一次在事件相机与AI生成视频领域的新探索。

如果你也对AI生成视频感兴趣,可进一步参考完整论文和开源代码。

论文地址:https://ieeexplore.ieee.org/abstract/document/10647468代码已开源:https://github.com/IndigoPurple/cube

苹果公司将致力于在华长期发展 外媒
先生教的不仅是书法 面孔 还有做人