基于立体声的沉浸式编码（STIC）制造技术

技术编号：37334995 阅读：103 留言：0更新日期：2023-04-21 23:13

本发明专利技术公开了一种通过双声道立体声信号和方向参数表示沉浸式信号的音频编解码器，该双声道立体声信号是沉浸式信号的立体声渲染。这些方向参数可基于描述虚拟扬声器对的方向的感知模型来重新创建所感知的主导声音的地点。可使用时频拼贴在多个声道对的频域中对立体声信号执行解码器处的音频处理。音频信号的空间定位可使用平移方法，具体通过将加权应用于针对每个输出声道对的立体声信号的时频拼贴。针对时频拼贴的加权可基于方向参数、立体声信号的分析以及输出声道布局来导出。这些加权可用于使用去相关器自适应地处理时频拼贴，以减少或最小化由于空间渲染引起的频谱失真。以减少或最小化由于空间渲染引起的频谱失真。以减少或最小化由于空间渲染引起的频谱失真。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】基于立体声的沉浸式编码(STIC)
[0001]相关申请的交叉引用
[0002]本申请要求于2020年8月27日提交的美国临时申请第63/071,149号的权益，其公开内容以引用的方式全文并入本文。

[0003]本公开涉及音频通信领域；更具体地，涉及被设计成使用立体声信号来传送沉浸式音频内容的数字信号处理方法。还描述了其他方面。

技术介绍

[0004]消费电子设备正在提供日益复杂且性能不断改善的数字音频编码和解码能力。传统上，主要使用提供左右音频声道的双声道立体声格式来生产、分发和消费音频内容。最近的市场发展旨在使用支持多声道音频、基于对象的音频和/或高保真度立体声响复制(Ambisonics)的更丰富的音频格式(例如Dolby Atmos或MPEG
‑
H)来提供更加沉浸式的听者体验。
[0005]沉浸式音频内容的传送与更大的带宽需求相关联，即需要相比用于立体声内容的更大的数据速率来进行流式传输和下载。如果带宽有限，则需要可在保持可能的最佳音频质量的同时减小音频数据大小的技术。感知音...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种对音频内容进行编码的方法，所述方法包括：由编码设备从所述音频内容生成双声道立体声信号；由所述编码设备基于所述音频内容生成方向参数，所述方向参数描述虚拟扬声器对方向，以在多个频率子带中重新创建所述音频内容的感知的主导声音地点；以及通过通信声道或通过存储设备将所述双声道立体声信号和所述方向参数传送到解码器。2.根据权利要求1所述的方法，其中所述音频内容包括与扬声器布局相关联的多声道信号、多个音频对象或任意阶数的高保真度立体声响复制中的一者或多者。3.根据权利要求1所述的方法，其中生成所述方向参数包括：由所述编码设备将由与扬声器布局相关联的多声道信号提供的所述音频内容转换为所述音频内容的频域表示的多个子带；由所述编码设备基于与所述多声道信号相关联的所述扬声器布局，使用响度掩蔽模型来为所述多个子带中的每个子带确定所述音频内容的最大响度；以及由所述编码设备为所述多个子带中的每个子带生成具有所述音频内容的所述最大响度的所述虚拟扬声器对的方向作为所述音频内容的所感知的主导声音地点。4.根据权利要求1所述的方法，其中所述方向参数包括所述虚拟扬声器对相对于默认听者位置的方位角和仰角，用以为所述多个频率子带中的每个频率子带重新创建所感知的主导声音地点。5.根据权利要求1所述的方法，其中生成所述方向参数包括：由所述编码设备将由多个音频对象提供的所述音频内容渲染到一个或多个虚拟声道对以创建所述多个音频对象的图像；由所述编码设备确定由所述一个或多个虚拟声道对创建的所述多个音频对象的所述图像的最大响度；以及由所述编码设备生成创建所述图像的所述最大响度的所述虚拟扬声器对的方向作为所述音频内容的所感知的主导声音地点。6.根据权利要求1所述的方法，还包括：基于提供所述音频内容的多个音频源的布局，将所述音频内容划分为多个区段，其中从所述音频内容生成所述双声道立体声信号包括：生成分别对应于所述多个区段中的所述音频内容的多个双声道立体声信号；其中生成所述方向参数包括：生成分别对应于所述多个区段中的所述音频内容的多个方向参数，所述多个方向参数中的每个方向参数描述所述虚拟扬声器对的方向，以在多个频率子带中重新创建所述多个区段中的对应区段中的所述音频内容的所感知的主导声音地点，并且其中传送所述双声道立体声信号和所述方向参数：通过所述通信声道或通过所述存储设备将所述多个双声道立体声信号和所述多个方向参数传送到所述解码器。7.根据权利要求1所述的方法，还包括：分析所述双声道立体声信号以生成内容分析参数；以及将所述内容分析参数传送到所述解码器。
8.根据权利要求7所述的方法，其中所述内容分析参数包括表示所述立体声信号的预测增益和起音强度的参数。9.一种被配置为对音频内容进行编码的系统，所述系统包括：存储器，所述存储器被配置为存储指令；处理器，所述处理器被耦接到所述存储器，并且被配置为执行存储在所述存储器中的所述指令以：从所述音频内容生成双声道立体声信号；基于所述音频内容生成方向参数，所述方向参数描述虚拟扬声器对方向，以在多个频率子带中重新创建所述音频内容的感知的主导声音地点；以及通过通信声道或通过存储设备将所述双声道立体声信号和所述方向参数传送到解码器。10.根据权利要求9所述的系统，其中所述音频内容包括与扬声器布局相关联的多声道信号、多个音频对象或任意阶数的高保真度立体声响复制中的一者或多者。11.根据权利要求9所述的系统，其中要生成所述方向参数，所述处理器还执行存储在所述存储器中的所述指令以：将由与扬声器布局相关联的多声道信号提供的所述音频内容转换为所述音频内容的频域表示的多个子带；基于与所述多声道信号相关联的所述扬声器布局，使用响度掩蔽模型来为所述多个子带中的每个子带确定所述音频内容的最大响度；以及为所述多个子带中的每个子带生成具有所述音频内容的所述最大响度的所述虚拟扬声器对的方向作为所述音频内容的所感知的主导声音地点。12.根据权利要求9所述的系统，其中所述方向参数包括所述虚拟扬声器对相对于默认听者位置的方位角和仰角，用以为所述多个频率子带中的每个频率子带重新创建所感知的主导声音地点。13.根据权利要求9所述的系统，其中要生成所述方向参数，所述处理器还执行存储在所述存储器中的所述指令以：将由多个音频对象提供的所述音频内容渲染到一个或多个虚拟声道对以创建所述多个音频对象的图像；确定由所述一个或多个虚拟声道对创建的所述多个音频对象的所述图像的最大响度；以及生成创建所述图像的所述最大响度的所述虚拟扬声器对的方向作为所述音频内容的所感知的主导声音地点。14.根据权利要求9所述的系统，其中所述处理器还执行存储在所述存储器中的所述指令以：基于提供所述音频内容的多个音频源的布局，将所述音频内容划分为多个区段，其中要从所述音频内容生成所述双声道立体声信号，所述处理器还执行存储在所述存储器中的所述指令以：生成分别对应于所述多个区段中的所述音频内容的多个双声道立体声信号；其中要生成所述方向参数，所述处理器还执行存储在所述存储器中的所述指令以：
生成分别对应于所述多个区段中的所述音频内容的多个方向参数，所述多个方向参数中的每个方向参数描述所述虚拟扬声器对的方向，以在多个频率子带中重新创建所述多个区段中的对应区段中的所述音频内容的所感知的主导声音地点，并且其中要传送所述双声道立体声信号和所述方向参数，所述处理器还执行存储在所述存储器中的所述指令以：通过所述通信声道或通过所述存储设备将所述多个双声道立体声信号和所述多个方向参数传送到所述解码器。15.根据权利要求9所述的系统，其中所述处理器还执行存储在所述存储器中的所述指令以：分析所述双声道立体声信号以生成内容分析参数；以及将所述内容分析参数传送到所述解码器。16.根据权利要求15所述的系统，其中所述内容分析参数包括表示所述立体声信号的预测增益和起音强度的参数。17.一种对音频内容进行解码的方法，所述方法包括：由解码器设备从编码设备接收双声道立体声信号和方向参数，所述方向参数描述虚拟扬声器对方向，以在多个频率子带中重新创建由所述双声道立体声信号表示的所述音频内容的感知的主导声音地点；由所述解码器设备从所述双声道立体声信号生成回放系统的多个声道对的多个时频拼贴，所述多个时频拼贴表示所述多个频率子带中的所述双声道立体声信号的每个声道的频域表示；基于所述方向参数生成针对所述多个声道对的所述多个时频拼贴的多个加权因子；以及将所述多个加权因子应用于所述多个时频拼贴，以通过所述回放系统的所述多个声道对对所述时频拼贴进行空间渲染。18.根据权利要求17所述的方法，其中将所述多个加权因子应用于所述多个时频拼贴包括：将针对所述多个声道对的所述多个时频拼贴的所述多个加权因子应用于所述多个时频拼贴和所述多个声道对中的对应一者的两个声道，以通过...

【专利技术属性】
技术研发人员：F，
申请(专利权)人：苹果公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人