使用图像信息的基于空间的音频对象生成制造技术

技术编号:27267055 阅读:58 留言:0更新日期:2021-02-06 11:31
用于生成多通道音频对象的方法、系统和计算机程序产品。使用一个或多个图像分析神经网络识别给定视频帧中的一个或多个特征。使用音频神经网络,基于一个或多个识别的特征和一个或多个基线音频轨道生成多通道音频对象。或多个基线音频轨道生成多通道音频对象。或多个基线音频轨道生成多通道音频对象。

【技术实现步骤摘要】
使用图像信息的基于空间的音频对象生成


[0001]本专利技术涉及电气、电子和计算机领域,并且更具体地,涉及生成基于空间的音频对象。

技术介绍

[0002]直到最近,数字格式的电影通常包括具有不同数量的音频通道(音频轨道)的视频。早期音频轨道中的一些包括单声道音频(一个通道)和后来的立体声音频(两个通道:左通道和右通道)。近年来,音频系统已开始使用具有如杜比全景声(Dolby Atmos)(美国加利福尼亚州三藩市杜比实验室的产品)和的声音传递格式的多通道音频输出(诸如5.1、7.1和9.1格式等),以用于更沉浸式的体验。随着这种沉浸式声音系统的出现,人们开发了将传统通道音频虚拟地上混音(up-mix)到更多通道的方法(诸如,从立体声音频上混音到5.1格式)。然而,这些方法直接对音频信号执行信号处理技术并且计算通道间相干性,以获得音频的虚拟空间坐标。常规方法采用信号处理技术,如音频轨道上音频的相移、时间延迟或混响,来计算通道间相干性,以用于获得音频源的虚拟空间坐标。这进一步用于隔离通道之间的音频。

技术实现思路

[0003]本专利技术的原理提供了用于使用图像信息生成基于空间的音频对象的技术。在一个方面中,一种示例性方法包括:使用一个或多个图像分析神经网络识别给定视频帧中的一个或多个特征的操作;以及使用音频神经网络,基于一个或多个识别的特征和一个或多个基线音频轨道(baseline audio track)生成多通道音频对象。
[0004]在一个方面中,一种装置包括:存储器;以及耦合到该存储器的至少一个处理器,并且该处理器可操作来执行包括以下各项的操作:使用一个或多个图像分析神经网络识别给定视频帧中的一个或多个特征;以及使用音频神经网络,基于一个或多个识别的特征和一个或多个基线音频轨道生成多通道音频对象。
[0005]在一个方面中,一种计算机程序产品具有可由一个或多个计算机处理器执行的计算机可读程序代码,以执行包括以下各项的操作:使用一个或多个图像分析神经网络识别给定视频帧中的一个或多个特征;以及使用音频神经网络,基于一个或多个识别的特征和一个或多个基线音频轨道生成多通道音频对象。
[0006]如本文所使用的,“促进”动作包括执行该动作、使该动作更容易、帮助执行该动作或者促使该动作被执行。因此,作为示例而非限制,在一个处理器上执行的指令可以通过发送适当的数据或命令来促使或帮助执行动作,从而促进由在远程处理器上执行的指令执行的动作。为避免疑问,在参与者通过除执行动作以外的方式来促进动作的情况下,该动作仍然是由一些实体或实体组合执行的。
[0007]本专利技术的一个或多个实施例或其元件可以以计算机程序产品的形式实现,该计算机程序产品包括计算机可读存储介质,该计算机可读存储介质具有用于执行所指示的方法
步骤的计算机可用程序代码。此外,本专利技术的一个或多个实施例或其元件可以以系统(或装置)的形式实现,该系统(或装置)包括存储器和至少一个处理器,该处理器耦合到存储器并且可操作为执行示例性方法步骤。此外,在另一方面中,本专利技术的一个或多个实施例或其元件可以以用于执行本文描述的一个或多个方法步骤的装置的形式来实现;该装置可以包括(i)(多个)硬件模块,(ii)存储在计算机可读存储介质(或多个这样的介质)中并且在硬件处理器上实现的(多个)软件模块,或者(iii)——(i)和(ii)的组合;(i)至(iii)中的任何一项实施本文阐述的特定技术。
[0008]本专利技术的技术可以提供实质性的有益技术效果。例如,一个或多个实施例提供以下一项或多项:
[0009]基于图像和视频信息的音频对象生成;
[0010]基于模型的上混音过程,其考虑来自图像的空间特征、来自图像的动态特征或这两者,以生成多通道音频;
[0011]学习用于生成多通道音频的最佳算法的神经网络;和
[0012]可扩展到任意数量的音频通道。
[0013]本专利技术的这些和其他特征和优点将从以下结合附图来阅读的本专利技术的说明性实施例的详细描述中变得显而易见。
附图说明
[0014]图1描绘了根据本专利技术实施例的云计算环境;
[0015]图2描绘了根据本专利技术实施例的抽象模型层;
[0016]图3是根据示例实施例的示例基于空间的音频对象生成系统(spatial-based audio object generation system,SAOGS)的框图;
[0017]图4A是根据示例实施例的用于训练音频神经网络的示例工作流程;
[0018]图4B是根据示例实施例的用于训练音频神经网络的示例方法的流程图;
[0019]图5A是根据示例实施例的使用SAOGS生成多通道音频的示例工作流程;
[0020]图5B是根据示例实施例的使用SAOGS生成多通道音频的示例方法的流程图;以及
[0021]图6描绘了可用于实现本专利技术的一个或多个方面和/或元件的计算机系统,其也代表了根据本专利技术实施例的云计算节点。
具体实施方式
[0022]首先应当理解,尽管本公开包括关于云计算的详细描述,但其中记载的技术方案的实现却不限于云计算环境,而是能够结合现在已知或以后开发的任何其它类型的计算环境而实现。
[0023]云计算是一种服务交付模式,用于对共享的可配置计算资源池进行方便、按需的网络访问。可配置计算资源是能够以最小的管理成本或与服务提供者进行最少的交互就能快速部署和释放的资源,例如可以是网络、网络带宽、服务器、处理、内存、存储、应用、虚拟机和服务。这种云模式可以包括至少五个特征、至少三个服务模型和至少四个部署模型。
[0024]特征包括:
[0025]按需自助式服务:云的消费者在无需与服务提供者进行人为交互的情况下能够单
方面自动地按需部署诸如服务器时间和网络存储等的计算能力。
[0026]广泛的网络接入:计算能力可以通过标准机制在网络上获取,这种标准机制促进了通过不同种类的瘦客户机平台或厚客户机平台(例如移动电话、膝上型电脑、个人数字助理PDA)对云的使用。
[0027]资源池:提供者的计算资源被归入资源池并通过多租户(multi-tenant)模式服务于多重消费者,其中按需将不同的实体资源和虚拟资源动态地分配和再分配。一般情况下,消费者不能控制或甚至并不知晓所提供的资源的确切位置,但可以在较高抽象程度上指定位置(例如国家、州或数据中心),因此具有位置无关性。
[0028]迅速弹性:能够迅速、有弹性地(有时是自动地)部署计算能力,以实现快速扩展,并且能迅速释放来快速缩小。在消费者看来,用于部署的可用计算能力往往显得是无限的,并能在任意时候都能获取任意数量的计算能力。
[0029]可测量的服务:云系统通过利用适于服务类型(例如存储、处理、带宽和活跃用户帐号)的某种抽象程度的计量能力,自动地控制和优化资源效用。可以监测、控制和报告资源使用情况,为服务提供者和消费者双方提供透明度。
[0030]服务模型如下:
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种方法,包括:使用一个或多个图像分析神经网络识别给定视频帧中的一个或多个特征;和使用音频神经网络,基于一个或多个识别的特征和一个或多个基线音频轨道生成多通道音频对象。2.根据权利要求1所述的方法,还包括使用生成模型在从第一通道到第二通道的过渡期间生成合成音频对象。3.根据权利要求2所述的方法,其中所述生成模型是生成对抗网络和可变自动编码器之一。4.根据权利要求1所述的方法,还包括基于一个或多个训练视频帧和一个或多个对应的训练特征来训练每个图像分析神经网络。5.根据权利要求1所述的方法,还包括基于从一个或多个训练视频帧、一个或多个对应的多通道音频轨道以及一个或多个基线音频轨道中提取的一个或多个训...

【专利技术属性】
技术研发人员:S斯里达兰IM瑟法蒂
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1