基于为心理声学音频编解码确定的比特分配对空间分量进行量化制造技术

技术编号：32101138 阅读：23 留言：0更新日期：2022-01-29 18:38

一般而言，描述了用于基于为心理声学音频编解码确定的比特分配来量化空间分量的技术。包括存储器和一个或多个处理器的设备可以执行这些技术。存储器可以存储包括经编码的前景音频信号和对应的经量化的空间分量的比特流。一个或多个处理器可以针对经编码的前景音频信号执行心理声学音频解码，以获得前景音频信号，并且当执行心理声学音频解码时，确定经编码的前景音频信号的第一比特分配。一个或多个处理器还可以基于第一比特分配，确定第二比特分配，并且基于第二比特分配，对经量化的空间分量进行反量化，以获得空间分量。一个或多个处理器可以基于前景音频信号和空间分量来重构基于场景的音频数据。构基于场景的音频数据。构基于场景的音频数据。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】基于为心理声学音频编解码确定的比特分配对空间分量进行量化
[0001]本申请要求于2020年6月22日提交的标题为“QUANTIZING SPATIAL COMPONENTS BASED ON BIT ALLOCATIONS DETERMINED FOR PSYCHOACOUSTIC AUDIO CODING”的美国专利申请第16/907,934号的优先权，该申请要求于2019年6月24日提交的标题为“QUANTIZING SPATIAL COMPONENTS BASED ON BIT ALLOCATIONS DETERMINED FOR PSYCHOACOUSTIC AUDIO CODING”的美国临时申请第62/865,853号的权益，其全部内容以引用方式并入本文，就如同全文阐述一样。

[0002]本公开涉及音频数据，并且更具体地，涉及音频数据的编解码(coding)。

技术介绍

[0003]心理声学音频编解码是指使用心理声学模型压缩音频数据的过程。考虑到由于空间掩蔽(例如，在同一位置的两个音频源，其中一个听觉源...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种被配置为对基于场景的音频数据进行编码的设备，所述设备包括：存储器，其被配置为存储基于场景的音频数据；以及一个或多个处理器，其被配置为:针对所述基于场景的音频数据执行空间音频编码，以获得前景音频信号和对应的空间分量，所述空间分量定义所述前景音频信号的空间特征；针对所述前景音频信号执行心理声学音频编码，以获得经编码的前景音频信号；当针对所述前景音频信号执行心理声学音频编码时，确定所述前景音频信号的第一比特分配；基于所述前景音频信号的所述第一比特分配，确定所述空间分量的第二比特分配；基于所述空间分量的所述第二比特分配，对所述空间分量进行量化，以获得经量化的空间分量；以及在比特流中指定所述经编码的前景音频信号和所述经量化的空间分量。2.根据权利要求1所述的设备，其中，所述一个或多个处理器被配置为：针对所述前景音频信号，根据压缩算法执行所述心理声学音频编码，以获得所述经编码的前景音频信号。3.根据权利要求1所述的设备，其中，所述一个或多个处理器被配置为：针对所述前景音频信号执行形状和增益分析，以获得表示所述前景音频信号的形状和增益；针对所述增益执行量化，以获得粗略量化增益和一个或多个精细量化残差；以及基于分配给所述粗略量化增益和一个或多个精细量化残差中的每一个的比特数，确定所述第二比特分配。4.根据权利要求1所述的设备，其中，所述一个或多个处理器被配置为：确定所述前景音频信号相对于由所述基于场景的音频数据表示的声场的频谱感知重要性；以及基于所述频谱感知重要性，确定所述第一比特分配。5.根据权利要求4所述的设备，其中，所述一个或多个处理器被配置为：基于所述频谱感知重要性和分配给所述粗略量化增益的比特数，确定静态空间比特分布；基于分配给所述一个或多个精细量化残差中的每一个的比特数，确定动态空间比特分布；以及基于所述静态空间比特分布和所述动态空间比特分布，确定所述第二比特分配。6.根据权利要求1所述的设备，其中，所述一个或多个处理器被配置为：针对所述基于场景的音频数据执行线性可逆变换，以获得所述前景音频信号和对应的空间分量。7.根据权利要求1所述的设备，其中，所述基于场景的音频数据包括与大于1的阶相对应的环绕声系数。8.根据权利要求1所述的设备，其中，所述基于场景的音频数据包括与大于零的阶相对应的环绕声系数。9.根据权利要求1所述的设备，其中，所述基于场景的音频数据包括在球谐域中定义的音频数据。10.根据权利要求1所述的设备，
其中，所述前景音频信号包括在球谐域中定义的前景音频信号，并且其中，所述空间分量包括在所述球谐域中定义的空间分量。11.根据权利要求1所述的设备，其中，所述基于场景的音频数据包括混合阶环绕声音频数据。12.根据权利要求1所述的设备，还包括被配置为捕获所述基于场景的音频数据的麦克风。13.一种对基于场景的音频数据进行编码的方法，所述方法包括：针对所述基于场景的音频数据执行空间音频编码，以获得前景音频信号和对应的空间分量，所述空间分量定义所述前景音频信号的空间特征；针对所述前景音频信号执行心理声学音频编码，以获得经编码的前景音频信号；当针对所述前景音频信号执行心理声学音频编码时，确定所述前景音频信号的第一比特分配；基于所述前景音频信号的所述第一比特分配，确定所述空间分量的第二比特分配；基于所述空间分量的所述第二比特分配，对所述空间分量进行量化，以获得经量化的空间分量；以及在比特流中指定所述经编码的前景音频信号和所述经量化的空间分量。14.一种被配置为对表示经编码的基于场景的音频数据的比特流进行解码的设备，所述设备包括：存储器，其被配置为存储所述比特流，所述比特流包括经编码的前景音频信号和对应的经量化的空间分量，所述空间分量定义所述前景音频信号的空间特征；以及一个或多个处理器，其被配置为：针对所述经编码的前景音频信号执行心理声学音频解码，以获得前景音频信号；当针对所述经编码的前景音频信号执行所述心理声学音频...

【专利技术属性】
技术研发人员：F奥利维耶里，T沙巴齐米尔扎哈桑洛，NG彼得斯，
申请(专利权)人：高通股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人