将基于场景的音频数据相关以用于心理声学音频编解码制造技术

技术编号：33069581 阅读：17 留言：0更新日期：2022-04-15 10:02

为了改进基于场景的音频数据的编码，在从基于场景的音频数据(诸如高阶高保真度立体声响HOA系数)中生成背景分量、前景音频信号和对应的空间分量后，执行相关分析以从前景音频信号和背景分量中确定将要经受立体心理声学音频编码的相关分量的排序对。在解码侧，在使用重排序的相关分量重构基于场景的音频数据之前，使用立体声解码对经编码的相关系数对进行解码，并使用包括在比特流中的重排序信息对其进行重排序。进行重排序。进行重排序。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】将基于场景的音频数据相关以用于心理声学音频编解码
[0001]本申请要求于2020年6月22日提交的标题为“CORRELATING SCENE
‑
BASED AUDIO DATA FOR PSYCHOACOUSTIC AUDIO CODING”的美国专利申请第16/908,032号的优先权，该美国专利申请要求于2019年6月24日提交的标题为“CORRELATING SCENE
‑
BASED AUDIO DATA FOR PSYCHOACOUSTIC AUDIO CODING”的美国临时申请第62/865,865号的优先权，这两个申请通过引用整体并入本文，如同其全部内容在此阐述。

[0002]本公开涉及音频数据，且更具体地，涉及音频数据的编解码。

技术介绍

[0003]心理声学音频编解码是指使用心理声学模型压缩音频数据的过程。心理声学音频编解码可以利用人类听觉系统中的限制来压缩音频数据，考虑由于空间掩蔽(例如，在相同位置处的两个音频源，其中，在响度方面，其中一个听觉源掩蔽另一个听觉源)、时间掩蔽(例如，其中，在响度方面，一个音频源掩蔽另一个听觉源)等而发生的限制。心理声学模型可以尝试对人类听觉系统建模以识别声场的冗余、掩蔽或以其他方式不能由人类听觉系统感知的掩蔽或其他部分。心理声学音频编解码还可以通过对音频数据进行熵编码来执行无损压缩。

技术实现思路

[0004]通常，描述了用于将基于场景的音频数据相关以用于心理声学音频编解码的技术。
[0005]在...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种被配置为对基于场景的音频数据进行编码的设备，所述设备包括：存储器，被配置为存储所述基于场景的音频数据；以及一个或多个处理器，被配置为：针对所述基于场景的音频数据执行空间音频编码以获得由所述基于场景的音频数据表示的声场的多个背景分量、多个前景音频信号和对应的多个空间分量，所述多个空间分量中的每一个定义所述多个前景音频信号中的对应前景音频信号的空间特性；针对所述多个背景分量和所述多个前景音频信号中的两个或更多个执行相关以获得多个相关分量；针对所述多个相关分量中的一个或多个执行心理声学音频编码以获得经编码的分量；以及在比特流中指定所述经编码的分量。2.根据权利要求1所述的设备，其中，所述一个或多个处理器被配置为根据针对所述多个相关分量中的所述至少一对相关分量的压缩算法来执行心理声学音频编码。3.根据权利要求1所述的设备，其中，所述一个或多个处理器被配置为针对所述多个相关分量中的至少一对相关分量执行心理声学音频编码以获得经编码的分量。4.根据权利要求1所述的设备，其中，所述一个或多个处理器还被配置为：针对所述多个背景分量单独执行相关以获得所述多个相关分量的多个相关的背景分量；以及针对所述多个背景分量的至少一对执行心理声学音频编码。5.根据权利要求1所述的设备，其中，所述一个或多个处理器还被配置为：针对所述多个前景音频信号单独执行相关以获得所述多个相关分量的多个相关的前景音频信号；以及针对所述多个相关的前景音频信号中的至少一对执行心理声学音频编码。6.根据权利要求1所述的设备，其中，所述一个或多个处理器被配置为针对所述多个背景分量中的至少一个及所述多个前景音频信号中的至少一个执行相关以获得所述多个相关分量中的至少一对。7.根据权利要求1所述的设备，其中，所述一个或多个处理器还被配置为：基于所述相关，对所述比特流中的所述多个背景分量和所述多个前景音频信号中的一个或多个进行重排序；以及在所述比特流中指定表示所述多个背景分量所述多个前景音频信号中的一个或多个如何在所述比特流中被重排序的指示。8.根据权利要求1所述的设备，其中，所述一个或多个处理器被配置为针对所述基于场景的音频数据执行线性可逆变换以获得所述多个前景音频信号和所述对应的多个空间分量。9.根据权利要求1所述的设备，其中，所述基于场景的音频数据包括与大于零的阶相对应的高阶高保真度立体声响系数。10.根据权利要求1所述的设备，其中，所述基于场景的音频数据包括在球面谐波域中定义的音频数据。11.根据权利要求1所述的设备，
其中，所述多个前景音频信号中的每一个包括在所述球面谐波域中定义的前景音频信号，以及其中，所述对应的多个空间分量中的每一个包括在所述球面谐波域中定义的空间分量。12.一种对基于场景的音频数据进行编码的方法，所述方法包括：针对所述基于场景的音频数据执行空间音频编码以获得由所述基于场景的音频数据表示的声场的多个背景分量、多个前景音频信号和对应的多个空间分量，所述多个空间分量中的每一个定义所述多个前景音频信号中的对应前景音频信号的空间特性；针对所述多个背景分量和所述多个前景音频信号中的一个或多个执行相关以获得多个相关分量；针对所述多个相关分量中的一个或多个执行心理声学音频编码以获得经编码的分量；以及在比特流中指定所述经编码的分量。13.一种被配置为对表示基于场景的音频数据的比特流进行解码的设备，所述设备包括：存储器，被配置为存储所述比特流，所述比特流包括由所述基于场景的音频数据表示的声场的多个经编码的相关分量；以及一个或多个处理器，被配置为：针对所述多个经编码的相关分量中的...

【专利技术属性】
技术研发人员：F，
申请(专利权)人：高通股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人