来自视频的同步声音生成制造技术

技术编号：32508312 阅读：28 留言：0更新日期：2022-03-02 10:45

计算设备接收视频馈送。视频馈送被划分成视频片段序列。针对每个视频片段，提取该视频片段的视觉特征。基于所提取的视觉特征产生预测频谱图。从预测频谱图产生合成音频波形。视频馈送的所有合成音频波形被连接以生成与视频馈送同步的合成音轨。频馈送同步的合成音轨。频馈送同步的合成音轨。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】来自视频的同步声音生成

[0001]本公开总体上涉及计算机和计算机应用，并且更具体地涉及从视频的自动声音生成。
[0002]相关技术的描述
[0003]近年来，媒体内容已经变得普遍存在，因为它在各种平台上可获得，并且来自越来越多的来源。例如，不同平台可包括互联网、电影、电视、收音机、智能电话、音频CD、书籍、电子书、杂志、和现场事件，诸如演讲、会议和舞台表演。通常，基于视频内容的媒体内容可能错过音频内容的与其对应的某些部分。例如，视频内容可能未用合适的麦克风记录，其中视频内容中缺少部分或全部声音。

技术实现思路

[0004]根据不同示范性实施例，提供一种使视频流适于包括合成音频流的计算设备、非暂态计算机可读存储介质和方法。视频馈送被接收并被分成视频片段序列。对于每个视频片段，提取视觉特征。基于所提取的视觉特征产生预测频谱图。从预测频谱图产生合成音频波形。视频馈送的所有合成音频波形被连接以生成与视频馈送同步的合成音轨。
[0005]在一个实施例中，每个视频片段是一个视频帧。
[0006]在一个实...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种计算机实现的方法，包括以下步骤：接收视频馈送；将所述视频馈送划分成视频片段序列；对于每个视频片段：提取所述视频片段的视觉特征；基于所提取的视觉特征产生预测频谱图；以及从所述预测频谱图生成合成音频波形；以及连接视频馈送的所有合成音频波形，以生成与视频馈送同步的合成音轨。2.根据权利要求1所述的方法，其中，每个视频片段是视频帧。3.根据权利要求1所述的方法，其中，提取所述视频片段中的视觉特征包括标识所述视频片段的一个或多个主题。4.根据权利要求1所述的方法，其中，所述视频片段的所述视觉特征包括主视觉特征和一个或多个非主视觉特征。5.根据权利要求4所述的方法，其中强调与所述主要特征相关联的合成音频波形，而不强调与所述一个或多个非主要视觉特征相关联的每个合成音频波形。6.根据权利要求1所述的方法，其中，基本上实时地执行所述确定。7.根据权利要求1所述的方法，其中产生预测频谱图包括：将所述提取的视觉特征提供到生成器中，所述生成器操作以...

【专利技术属性】
技术研发人员：张阳，淦创，刘思佳，王大阔，
申请(专利权)人：国际商业机器公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人