迪士尼在研究一种AI 让声音和画面的剪辑同步

程序员文章站 2022-04-24 10:13:22

从技术的角度来看，擅长讲故事的迪士尼在这方面也有相当多的积累，例如隐藏在上海迪士尼乐园里的那些。现在，迪士尼也要做AI研究，想帮助视频剪辑师更好地工作。迪士尼旗下的迪士尼研究部门(Disney Res...

从技术的角度来看，擅长讲故事的迪士尼在这方面也有相当多的积累，例如隐藏在上海迪士尼乐园里的那些。现在，迪士尼也要做AI研究，想帮助视频剪辑师更好地工作。

迪士尼旗下的迪士尼研究部门(Disney Research)和苏黎世联邦理工学院合作，正在开发一套机器学习系统，在识别画面的基础上，将画面跟相关的声音连接起来。

这听起来可能有点绕，其实是日常生活常见的现象。例如随着关门的动作进行，人们会“想象”特定的关门声音。本质上，其实是人们把关门相关的视觉信息跟声音信息做了连接。

这项研究想要做的，就是培养机器人这种关联性。在建立画面和声音的强关联性上，最大的障碍是那些跟画面中的物体运动不相关的声音，例如汽车开在马路上，附近还有公放的音乐，这会形成干扰。

迪士尼在研究一种AI 让声音和画面的剪辑同步

他们的培训方式是这样的，给机器人喂入一系列随手拍摄的、带有声音的视频。在喂入前，他们做了前期加工，从视频画面中用软件筛掉那些含有较低杂音，或者纯背景音的画面，再把剩下的画面、声音喂入到系统内，对它进行培训。

在欧洲机器学习大会上，这些研究员展示了初步的研究结果，他们培训的AI系统成功地做了这些画面跟声音的配对：关门、杯子碰撞和汽车在马路上行驶。

暂时还不清楚这个研究会如何帮助迪士尼。在研究报告中，这些研究员称，他们的技术除了有助于帮视频画面跟声音做匹配，可能还有助于对视频资料的分类，或者是运动识别。这些听上去可能是帮助剪辑师在后期剪辑时提高效率。

作为一个支援部门，迪士尼研究部门做的研究看上去跟其它科技公司没有太大差别，但开发的主要目的是为了能应用于迪士尼的旗下业务。

去年，这个研究部门还推出了一项新的眼球追踪技术，几乎可以复制人眼。他们使用了大量摄像头和灯光来捕捉人眼的所有细节，还能保证复制品能根据环境变化而发生改变。

题图来自；*