使用图像信息的基于空间的音频对象生成制造技术

技术编号：27267055 阅读：58 留言：0更新日期：2021-02-06 11:31

用于生成多通道音频对象的方法、系统和计算机程序产品。使用一个或多个图像分析神经网络识别给定视频帧中的一个或多个特征。使用音频神经网络，基于一个或多个识别的特征和一个或多个基线音频轨道生成多通道音频对象。或多个基线音频轨道生成多通道音频对象。或多个基线音频轨道生成多通道音频对象。

全部详细技术资料下载

【技术实现步骤摘要】
使用图像信息的基于空间的音频对象生成

[0001]本专利技术涉及电气、电子和计算机领域，并且更具体地，涉及生成基于空间的音频对象。

技术介绍

[0002]直到最近，数字格式的电影通常包括具有不同数量的音频通道(音频轨道)的视频。早期音频轨道中的一些包括单声道音频(一个通道)和后来的立体声音频(两个通道：左通道和右通道)。近年来，音频系统已开始使用具有如杜比全景声(Dolby Atmos)(美国加利福尼亚州三藩市杜比实验室的产品)和的声音传递格式的多通道音频输出(诸如5.1、7.1和9.1格式等)，以用于更沉浸式的体验。随着这种沉浸式声音系统的出现，人们开发了将传统通道音频虚拟地上混音(up-mix)到更多通道的方法(诸如，从立体声音频上混音到5.1格式)。然而，这些方法直接对音频信号执行信号处理技术并且计算通道间相干性，以获得音频的虚拟空间坐标。常规方法采用信号处理技术，如音频轨道上音频的相移、时间延迟或混响，来计算通道间相干性，以用于获得音频源的虚拟空间坐标。这进一步用于隔离通道之间的音频。

技术实现思路

[0003]本专利技术的原理提供了用于使用图像信息生成基于空间的音频对象的技术。在一个方面中，一种示例性方法包括：使用一个或多个图像分析神经网络识别给定视频帧中的一个或多个特征的操作；以及使用音频神经网络，基于一个或多个识别的特征和一个或多个基线音频轨道(baseline audio track)生成多通道音频对象。
[0004]在一个方面中，一种装置包括：存储器；以及耦合到该存储器的至少...

【技术保护点】

【技术特征摘要】
1.一种方法，包括：使用一个或多个图像分析神经网络识别给定视频帧中的一个或多个特征；和使用音频神经网络，基于一个或多个识别的特征和一个或多个基线音频轨道生成多通道音频对象。2.根据权利要求1所述的方法，还包括使用生成模型在从第一通道到第二通道的过渡期间生成合成音频对象。3.根据权利要求2所述的方法，其中所述生成模型是生成对抗网络和可变自动编码器之一。4.根据权利要求1所述的方法，还包括基于一个或多个训练视频帧和一个或多个对应的训练特征来训练每个图像分析神经网络。5.根据权利要求1所述的方法，还包括基于从一个或多个训练视频帧、一个或多个对应的多通道音频轨道以及一个或多个基线音频轨道中提取的一个或多个训...

【专利技术属性】
技术研发人员：S斯里达兰，IM瑟法蒂，
申请(专利权)人：国际商业机器公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人