将基于场景的音频数据相关以用于心理声学音频编解码制造技术

技术编号:33069581 阅读:17 留言:0更新日期:2022-04-15 10:02
为了改进基于场景的音频数据的编码,在从基于场景的音频数据(诸如高阶高保真度立体声响HOA系数)中生成背景分量、前景音频信号和对应的空间分量后,执行相关分析以从前景音频信号和背景分量中确定将要经受立体心理声学音频编码的相关分量的排序对。在解码侧,在使用重排序的相关分量重构基于场景的音频数据之前,使用立体声解码对经编码的相关系数对进行解码,并使用包括在比特流中的重排序信息对其进行重排序。进行重排序。进行重排序。

【技术实现步骤摘要】
【国外来华专利技术】将基于场景的音频数据相关以用于心理声学音频编解码
[0001]本申请要求于2020年6月22日提交的标题为“CORRELATING SCENE

BASED AUDIO DATA FOR PSYCHOACOUSTIC AUDIO CODING”的美国专利申请第16/908,032号的优先权,该美国专利申请要求于2019年6月24日提交的标题为“CORRELATING SCENE

BASED AUDIO DATA FOR PSYCHOACOUSTIC AUDIO CODING”的美国临时申请第62/865,865号的优先权,这两个申请通过引用整体并入本文,如同其全部内容在此阐述。


[0002]本公开涉及音频数据,且更具体地,涉及音频数据的编解码。

技术介绍

[0003]心理声学音频编解码是指使用心理声学模型压缩音频数据的过程。心理声学音频编解码可以利用人类听觉系统中的限制来压缩音频数据,考虑由于空间掩蔽(例如,在相同位置处的两个音频源,其中,在响度方面,其中一个听觉源掩蔽另一个听觉源)、时间掩蔽(例如,其中,在响度方面,一个音频源掩蔽另一个听觉源)等而发生的限制。心理声学模型可以尝试对人类听觉系统建模以识别声场的冗余、掩蔽或以其他方式不能由人类听觉系统感知的掩蔽或其他部分。心理声学音频编解码还可以通过对音频数据进行熵编码来执行无损压缩。

技术实现思路

[0004]通常,描述了用于将基于场景的音频数据相关以用于心理声学音频编解码的技术。
[0005]在一个示例中,技术的各个方面涉及被配置为对基于场景的音频数据进行编码的设备,该设备包括:存储器,其被配置为存储基于场景的音频数据;以及一个或多个处理器,其被配置为:针对基于场景的音频数据执行空间音频编码以获得由基于场景的音频数据表示的声场的多个背景分量、多个前景音频信号和对应的多个空间分量,多个空间分量中的每一个定义多个前景音频信号中的对应前景音频信号的空间特性;针对多个背景分量和多个前景音频信号中的两个或多个执行相关以获得多个相关分量;针对多个相关分量中的一个或多个执行心理声学音频编码以获得经编码的分量;以及在比特流中指定经编码的分量。
[0006]在另一示例中,技术的各个方面涉及对基于场景的音频数据进行编码的方法,该方法包括:针对基于场景的音频数据执行空间音频编码以获得由基于场景的音频数据表示的声场的多个背景分量、多个前景音频信号和对应的多个空间分量,该多个空间分量中的每一个定义多个前景音频信号中的对应前景音频信号的空间特性;针对多个背景分量和多个前景音频信号中的一个或多个进行相关以获得多个相关分量;针对多个相关分量中的一个或多个相关分量执行心理声学音频编码以获得经编码的分量;以及在比特流中指定经编码的分量。
[0007]在另一示例中,技术的各个方面涉及被配置为对基于场景的音频数据进行编码的设备,该设备包括:用于针对基于场景的音频数据执行空间音频编码以获得由基于场景的音频数据表示的声场的多个背景分量、多个前景音频信号和对应的多个空间分量的部件,多个空间分量中的每一个定义多个前景音频信号中的对应前景音频信号的空间特性;用于针对多个背景分量和多个前景音频信号中的两个或多个执行相关以获得多个相关分量的部件;用于针对多个相关分量中的一个或多个执行心理声学音频编码以获得经编码的分量的部件;以及用于在比特流中指定经编码的分量的部件。
[0008]在另一示例中,技术的各个方面涉及其上存储有指令的非暂时性计算机可读存储介质,指令在执行时致使一个或多个处理器:针对基于场景的音频数据执行空间音频编码以获得由基于场景的音频数据表示的声场的多个背景分量、多个前景音频信号和对应的多个空间分量,该多个空间分量中的每一个定义多个前景音频信号中的对应前景音频信号的空间特性;针对多个背景分量和多个前景音频信号中的一个或多个执行相关以获得多个相关分量;针对多个相关分量中的一个或多个执行心理声学音频编码以获得经编码的分量;以及在比特流中指定经编码的分量。
[0009]在另一示例中,技术的各个方面涉及被配置为对表示基于场景的音频数据的比特流进行解码的设备,该设备包括:存储器,其被配置为存储比特流,该比特流包括由基于场景的音频数据表示的声场的多个经编码的相关分量;以及一个或多个处理器,其被配置为:针对多个经编码的相关分量中的一个或多个执行心理声学音频解码以获得多个相关分量;从比特流获得表示多个相关分量中的一个或多个如何在比特流中被重排序的指示;基于指示,重排序多个相关分量以获得多个经重排序的分量;以及基于多个重排序的分量重构基于场景的音频数据。
[0010]在另一示例中,技术的各个方面涉及表示基于场景的音频数据的比特流进行解码的方法,方法包括:从比特流获得多个经编码的相关分量;针对多个经编码的相关分量中的一个或多个执行心理声学音频解码以获得多个相关分量;从比特流获得表示多个相关分量中的一个或多个如何在比特流中被重排序的指示;基于指示,重排序多个相关分量以获得多个经重排序的分量;以及基于多个重排序的分量重构基于场景的音频数据。
[0011]在另一示例中,技术的各个方面涉及被配置为对表示基于场景的音频数据的比特流进行解码的设备,该设备包括:用于从比特流获得多个经编码的相关分量的部件;用于针对多个经编码的相关分量中的一个或多个执行心理声学音频解码以获得多个相关分量的部件;用于从比特流获得表示多个相关分量中的一个或多个如何在比特流中被重排序的指示的部件;用于基于指示,重排序多个相关分量以获得多个经重排序的分量的部件;以及用于基于多个重排序的分量重构基于场景的音频数据的部件。
[0012]在另一示例中,技术的各个方面涉及其上存储有指令的非暂时性计算机可读存储介质,该指令在执行时致使一个或多个处理器:从代表基于场景的音频数据的比特流获得多个经编码的相关分量;针对多个经编码的相关分量中的一个或多个执行心理声学音频解码以获得多个相关分量;从比特流获得表示多个相关分量中的一个或多个如何在比特流中被重排序的指示;基于指示,重排序多个相关分量以获得多个经重排序的分量;以及基于多个重排序的分量重构基于场景的音频数据。
[0013]在附图和以下描述中阐述了技术的一个或多个方面的细节。这些技术的其他特
征、目的和优点将从描述和附图以及从权利要求中显而易见。
附图说明
[0014]图1是图示了可以执行本公开中所描述的技术的各个方面的系统的图示。
[0015]图2是图示了可以执行本公开中所描述的技术的各个方面的系统的另一示例的图示。
[0016]图3A

图3C是更详细地图示了图1和2的示例中所示出的心理声学音频编码设备的示例的框图。
[0017]图4A和4B是更详细地图示了图1和2的示例中所示出的心理声学音频解码设备的示例的框图。
[0018]图5是更详细地图示了图3A

图3C的示例中所示出的编码器的示例的框图。
[0019]图6是更详细地图本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种被配置为对基于场景的音频数据进行编码的设备,所述设备包括:存储器,被配置为存储所述基于场景的音频数据;以及一个或多个处理器,被配置为:针对所述基于场景的音频数据执行空间音频编码以获得由所述基于场景的音频数据表示的声场的多个背景分量、多个前景音频信号和对应的多个空间分量,所述多个空间分量中的每一个定义所述多个前景音频信号中的对应前景音频信号的空间特性;针对所述多个背景分量和所述多个前景音频信号中的两个或更多个执行相关以获得多个相关分量;针对所述多个相关分量中的一个或多个执行心理声学音频编码以获得经编码的分量;以及在比特流中指定所述经编码的分量。2.根据权利要求1所述的设备,其中,所述一个或多个处理器被配置为根据针对所述多个相关分量中的所述至少一对相关分量的压缩算法来执行心理声学音频编码。3.根据权利要求1所述的设备,其中,所述一个或多个处理器被配置为针对所述多个相关分量中的至少一对相关分量执行心理声学音频编码以获得经编码的分量。4.根据权利要求1所述的设备,其中,所述一个或多个处理器还被配置为:针对所述多个背景分量单独执行相关以获得所述多个相关分量的多个相关的背景分量;以及针对所述多个背景分量的至少一对执行心理声学音频编码。5.根据权利要求1所述的设备,其中,所述一个或多个处理器还被配置为:针对所述多个前景音频信号单独执行相关以获得所述多个相关分量的多个相关的前景音频信号;以及针对所述多个相关的前景音频信号中的至少一对执行心理声学音频编码。6.根据权利要求1所述的设备,其中,所述一个或多个处理器被配置为针对所述多个背景分量中的至少一个及所述多个前景音频信号中的至少一个执行相关以获得所述多个相关分量中的至少一对。7.根据权利要求1所述的设备,其中,所述一个或多个处理器还被配置为:基于所述相关,对所述比特流中的所述多个背景分量和所述多个前景音频信号中的一个或多个进行重排序;以及在所述比特流中指定表示所述多个背景分量所述多个前景音频信号中的一个或多个如何在所述比特流中被重排序的指示。8.根据权利要求1所述的设备,其中,所述一个或多个处理器被配置为针对所述基于场景的音频数据执行线性可逆变换以获得所述多个前景音频信号和所述对应的多个空间分量。9.根据权利要求1所述的设备,其中,所述基于场景的音频数据包括与大于零的阶相对应的高阶高保真度立体声响系数。10.根据权利要求1所述的设备,其中,所述基于场景的音频数据包括在球面谐波域中定义的音频数据。11.根据权利要求1所述的设备,
其中,所述多个前景音频信号中的每一个包括在所述球面谐波域中定义的前景音频信号,以及其中,所述对应的多个空间分量中的每一个包括在所述球面谐波域中定义的空间分量。12.一种对基于场景的音频数据进行编码的方法,所述方法包括:针对所述基于场景的音频数据执行空间音频编码以获得由所述基于场景的音频数据表示的声场的多个背景分量、多个前景音频信号和对应的多个空间分量,所述多个空间分量中的每一个定义所述多个前景音频信号中的对应前景音频信号的空间特性;针对所述多个背景分量和所述多个前景音频信号中的一个或多个执行相关以获得多个相关分量;针对所述多个相关分量中的一个或多个执行心理声学音频编码以获得经编码的分量;以及在比特流中指定所述经编码的分量。13.一种被配置为对表示基于场景的音频数据的比特流进行解码的设备,所述设备包括:存储器,被配置为存储所述比特流,所述比特流包括由所述基于场景的音频数据表示的声场的多个经编码的相关分量;以及一个或多个处理器,被配置为:针对所述多个经编码的相关分量中的...

【专利技术属性】
技术研发人员:F
申请(专利权)人:高通股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1