当前位置: 首页 > 专利查询>苹果公司专利>正文

基于立体声的沉浸式编码(STIC)制造技术

技术编号:37334995 阅读:30 留言:0更新日期:2023-04-21 23:13
本发明专利技术公开了一种通过双声道立体声信号和方向参数表示沉浸式信号的音频编解码器,该双声道立体声信号是沉浸式信号的立体声渲染。这些方向参数可基于描述虚拟扬声器对的方向的感知模型来重新创建所感知的主导声音的地点。可使用时频拼贴在多个声道对的频域中对立体声信号执行解码器处的音频处理。音频信号的空间定位可使用平移方法,具体通过将加权应用于针对每个输出声道对的立体声信号的时频拼贴。针对时频拼贴的加权可基于方向参数、立体声信号的分析以及输出声道布局来导出。这些加权可用于使用去相关器自适应地处理时频拼贴,以减少或最小化由于空间渲染引起的频谱失真。以减少或最小化由于空间渲染引起的频谱失真。以减少或最小化由于空间渲染引起的频谱失真。

【技术实现步骤摘要】
【国外来华专利技术】基于立体声的沉浸式编码(STIC)
[0001]相关申请的交叉引用
[0002]本申请要求于2020年8月27日提交的美国临时申请第63/071,149号的权益,其公开内容以引用的方式全文并入本文。


[0003]本公开涉及音频通信领域;更具体地,涉及被设计成使用立体声信号来传送沉浸式音频内容的数字信号处理方法。还描述了其他方面。

技术介绍

[0004]消费电子设备正在提供日益复杂且性能不断改善的数字音频编码和解码能力。传统上,主要使用提供左右音频声道的双声道立体声格式来生产、分发和消费音频内容。最近的市场发展旨在使用支持多声道音频、基于对象的音频和/或高保真度立体声响复制(Ambisonics)的更丰富的音频格式(例如Dolby Atmos或MPEG

H)来提供更加沉浸式的听者体验。
[0005]沉浸式音频内容的传送与更大的带宽需求相关联,即需要相比用于立体声内容的更大的数据速率来进行流式传输和下载。如果带宽有限,则需要可在保持可能的最佳音频质量的同时减小音频数据大小的技术。感知音频编码中常见的减少带宽的方法是利用听觉的感知特性来保持音频质量。例如,在最低比特率下,音频编码可利用参数化方法来对某些声音特征进行比特率有效编码,使得可在解码器中近似地重新创建这些特征。参数化环绕音频编码的示例为MPEG环绕(MPEG Surround)或双耳线索编码(BCC),该双耳线索编码可使用空间参数从单声道音频信号重新创建多声道音频信号。要使用有限带宽来传送更丰富和更沉浸式的音频内容,还需要其他音频编码和解码(编解码器)技术。

技术实现思路

[0006]本专利技术公开了一种新的沉浸式音频编解码器的多个方面,该沉浸式音频编解码器可基于双声道立体声信号和方向参数来重新创建沉浸式音频体验。该立体声信号是该沉浸式音频信号的高质量立体声渲染,并且这些方向参数可基于感知模型,该感知模型导出描述所感知的主导声音的方向的参数。该沉浸式音频信号可包括多声道音频、音频对象或更高阶高保真度立体声响复制(HOA),该更高阶高保真度立体声响复制描述了基于球谐函数的声场。例如,当该沉浸式音频信号是多于两个声道的多声道输入时,其可被缩混为立体声信号。当该沉浸式音频信号表示音频对象或HOA分量时,对象或HOA分量可被渲染为立体声信号。该立体声信号和这些方向参数可由编码器进行编码并传输到解码器以进行重建和回放。
[0007]在解码器处,经解码立体声信号可从时域转换为频域,并分离为时频拼贴。这些时频拼贴的左右信号可由多个处理单元并行处理,每个处理单元与一对回放声道或扬声器相关联。可将加权因子应用于这些拼贴以生成该输出声道对的对应的加权时频拼贴。在给定
回放声道布局的情况下,可控制这些加权因子以通过空间渲染创建感知的方向,这些时频拼贴的音频信号将在该多声道回放系统中从该感知的方向被收听到。从该编码器接收到的这些方向参数可表示这些时频拼贴的子带中所感知的主导声音的方向,并且这些方向参数可由该解码器用来控制这些加权因子。
[0008]在一个方面,解码器可基于对立体声信号的分析和方向参数来控制加权因子,以减少声道对之间的相关。可应用去相关来减少梳状滤波效应,这些梳状滤波效应在听者移动时可能导致所感知的音频信号出现大的图像偏移。这些效应在具有平滑包络和高预测增益的音频信号中可能会很明显。该解码器可分析该立体声信号和这些方向参数以生成用于去相关的加权因子,并且估计针对每个时频拼贴的去相关的量。在一个方面,要减轻由于空间渲染引起的失真(诸如,由不同方向上存在的并发源导致的不稳定的图像或由瞬时信号导致的起音的时间拖尾),该解码器可估计这些时频拼贴的子带中的主导的感知方向的时间波动,以控制这些加权因子的生成。
[0009]在将加权因子应用于声道对的时频拼贴进行空间渲染之后,将合并加权的时频拼贴以将每个声道对的左右信号从频域转换回时域。可组合针对这些声道对的时域信号以生成针对多声道回放系统的扬声器的信号。在一个方面,立体声信号可用作回退音频信号,用于无法解码方向参数、只有一个立体声回放系统,或者其立体声信号优选用于耳机回放的系统。
[0010]有利的是,为了降低比特率,本公开的多个方面减少了要传输到两个声道的音频声道的数量。对于方向参数,该立体声信号仅使用少量的边信息,远低于单个音频声道所需的比特率。基于这些方向参数和对该立体声信号的分析来执行信号处理,以使用技术(诸如,加权因子的时间平滑和去相关)来减少或最小化由于空间渲染引起的频谱失真。沉浸式音频内容的音频质量可在实现比特率降低的同时得到增强。
[0011]在一个方面,公开了一种用于对音频内容进行编码的方法。该方法包括从音频内容(诸如沉浸式音频信号)生成双声道立体声信号。该方法还包括基于该音频内容生成方向参数。这些方向参数描述虚拟扬声器对的最佳方向,以在多个频率子带中重新创建该音频内容的所感知的主导声音地点。该方法还包括通过通信声道将该双声道立体声信号和这些方向参数传输到解码设备。
[0012]在一个方面,公开了一种用于解码音频内容的方法。该方法包括从编码设备接收双声道立体声信号和方向参数。这些方向参数描述虚拟扬声器对的最佳方向,以在多个频率子带中重新创建由该双声道立体声信号表示的音频内容的所感知的主导声音地点。该方法还包括从该双声道立体声信号生成回放系统的多个声道对的多个时频拼贴。该多个时频拼贴表示多个频率子带中的该双声道立体声信号的每个声道的频域表示。该方法还包括基于这些方向参数生成用于该多个声道对的该多个时频拼贴的加权因子。该方法还包括将这些加权因子应用于该多个时频拼贴,以通过该回放系统的该多个声道对对这些时频拼贴进行空间渲染。
[0013]上面的概述不包括本专利技术的所有方面的详尽列表。设想本专利技术包括可从上面概述的各个方面以及在下面的具体实施方式中公开并在随该专利申请提交的权利要求书中特别指出的各个方面的所有合适的组合而实践的所有系统和方法。此类组合具有未在上面的概述中具体叙述的特定优点。
附图说明
[0014]本公开的各方面以举例的方式进行说明,而不仅限于各个附图的图示,在附图中类似的附图标号指示类似的元件。应当指出的是,在本公开中提到“一”或“一个”方面未必是同一方面,并且其意指至少一个。另外,为了简洁以及减少附图的总数,可使用给定附图示出本公开的不止一个方面的特征部,并且对于给定方面,可能并非需要该附图中的所有元件。
[0015]图1是根据本公开的一个方面的基于立体声的沉浸式音频编码系统的功能框图。
[0016]图2描绘了根据本公开的一个方面的五个扬声器布局的顶视图。
[0017]图3描绘了根据本公开的一个方面的从五个扬声器布局中感知的音频源的幻影图像地点。
[0018]图4是根据本公开的一个方面的基于立体声的沉浸式音频编码系统的功能框图,该系统包括用于减少或最小化由于空间渲染引起的失真的处理模块。
[0019]图5是根据本公开的一个方面的基于立体声的沉浸式音频编码系统的感知模型的功本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种对音频内容进行编码的方法,所述方法包括:由编码设备从所述音频内容生成双声道立体声信号;由所述编码设备基于所述音频内容生成方向参数,所述方向参数描述虚拟扬声器对方向,以在多个频率子带中重新创建所述音频内容的感知的主导声音地点;以及通过通信声道或通过存储设备将所述双声道立体声信号和所述方向参数传送到解码器。2.根据权利要求1所述的方法,其中所述音频内容包括与扬声器布局相关联的多声道信号、多个音频对象或任意阶数的高保真度立体声响复制中的一者或多者。3.根据权利要求1所述的方法,其中生成所述方向参数包括:由所述编码设备将由与扬声器布局相关联的多声道信号提供的所述音频内容转换为所述音频内容的频域表示的多个子带;由所述编码设备基于与所述多声道信号相关联的所述扬声器布局,使用响度掩蔽模型来为所述多个子带中的每个子带确定所述音频内容的最大响度;以及由所述编码设备为所述多个子带中的每个子带生成具有所述音频内容的所述最大响度的所述虚拟扬声器对的方向作为所述音频内容的所感知的主导声音地点。4.根据权利要求1所述的方法,其中所述方向参数包括所述虚拟扬声器对相对于默认听者位置的方位角和仰角,用以为所述多个频率子带中的每个频率子带重新创建所感知的主导声音地点。5.根据权利要求1所述的方法,其中生成所述方向参数包括:由所述编码设备将由多个音频对象提供的所述音频内容渲染到一个或多个虚拟声道对以创建所述多个音频对象的图像;由所述编码设备确定由所述一个或多个虚拟声道对创建的所述多个音频对象的所述图像的最大响度;以及由所述编码设备生成创建所述图像的所述最大响度的所述虚拟扬声器对的方向作为所述音频内容的所感知的主导声音地点。6.根据权利要求1所述的方法,还包括:基于提供所述音频内容的多个音频源的布局,将所述音频内容划分为多个区段,其中从所述音频内容生成所述双声道立体声信号包括:生成分别对应于所述多个区段中的所述音频内容的多个双声道立体声信号;其中生成所述方向参数包括:生成分别对应于所述多个区段中的所述音频内容的多个方向参数,所述多个方向参数中的每个方向参数描述所述虚拟扬声器对的方向,以在多个频率子带中重新创建所述多个区段中的对应区段中的所述音频内容的所感知的主导声音地点,并且其中传送所述双声道立体声信号和所述方向参数:通过所述通信声道或通过所述存储设备将所述多个双声道立体声信号和所述多个方向参数传送到所述解码器。7.根据权利要求1所述的方法,还包括:分析所述双声道立体声信号以生成内容分析参数;以及将所述内容分析参数传送到所述解码器。
8.根据权利要求7所述的方法,其中所述内容分析参数包括表示所述立体声信号的预测增益和起音强度的参数。9.一种被配置为对音频内容进行编码的系统,所述系统包括:存储器,所述存储器被配置为存储指令;处理器,所述处理器被耦接到所述存储器,并且被配置为执行存储在所述存储器中的所述指令以:从所述音频内容生成双声道立体声信号;基于所述音频内容生成方向参数,所述方向参数描述虚拟扬声器对方向,以在多个频率子带中重新创建所述音频内容的感知的主导声音地点;以及通过通信声道或通过存储设备将所述双声道立体声信号和所述方向参数传送到解码器。10.根据权利要求9所述的系统,其中所述音频内容包括与扬声器布局相关联的多声道信号、多个音频对象或任意阶数的高保真度立体声响复制中的一者或多者。11.根据权利要求9所述的系统,其中要生成所述方向参数,所述处理器还执行存储在所述存储器中的所述指令以:将由与扬声器布局相关联的多声道信号提供的所述音频内容转换为所述音频内容的频域表示的多个子带;基于与所述多声道信号相关联的所述扬声器布局,使用响度掩蔽模型来为所述多个子带中的每个子带确定所述音频内容的最大响度;以及为所述多个子带中的每个子带生成具有所述音频内容的所述最大响度的所述虚拟扬声器对的方向作为所述音频内容的所感知的主导声音地点。12.根据权利要求9所述的系统,其中所述方向参数包括所述虚拟扬声器对相对于默认听者位置的方位角和仰角,用以为所述多个频率子带中的每个频率子带重新创建所感知的主导声音地点。13.根据权利要求9所述的系统,其中要生成所述方向参数,所述处理器还执行存储在所述存储器中的所述指令以:将由多个音频对象提供的所述音频内容渲染到一个或多个虚拟声道对以创建所述多个音频对象的图像;确定由所述一个或多个虚拟声道对创建的所述多个音频对象的所述图像的最大响度;以及生成创建所述图像的所述最大响度的所述虚拟扬声器对的方向作为所述音频内容的所感知的主导声音地点。14.根据权利要求9所述的系统,其中所述处理器还执行存储在所述存储器中的所述指令以:基于提供所述音频内容的多个音频源的布局,将所述音频内容划分为多个区段,其中要从所述音频内容生成所述双声道立体声信号,所述处理器还执行存储在所述存储器中的所述指令以:生成分别对应于所述多个区段中的所述音频内容的多个双声道立体声信号;其中要生成所述方向参数,所述处理器还执行存储在所述存储器中的所述指令以:
生成分别对应于所述多个区段中的所述音频内容的多个方向参数,所述多个方向参数中的每个方向参数描述所述虚拟扬声器对的方向,以在多个频率子带中重新创建所述多个区段中的对应区段中的所述音频内容的所感知的主导声音地点,并且其中要传送所述双声道立体声信号和所述方向参数,所述处理器还执行存储在所述存储器中的所述指令以:通过所述通信声道或通过所述存储设备将所述多个双声道立体声信号和所述多个方向参数传送到所述解码器。15.根据权利要求9所述的系统,其中所述处理器还执行存储在所述存储器中的所述指令以:分析所述双声道立体声信号以生成内容分析参数;以及将所述内容分析参数传送到所述解码器。16.根据权利要求15所述的系统,其中所述内容分析参数包括表示所述立体声信号的预测增益和起音强度的参数。17.一种对音频内容进行解码的方法,所述方法包括:由解码器设备从编码设备接收双声道立体声信号和方向参数,所述方向参数描述虚拟扬声器对方向,以在多个频率子带中重新创建由所述双声道立体声信号表示的所述音频内容的感知的主导声音地点;由所述解码器设备从所述双声道立体声信号生成回放系统的多个声道对的多个时频拼贴,所述多个时频拼贴表示所述多个频率子带中的所述双声道立体声信号的每个声道的频域表示;基于所述方向参数生成针对所述多个声道对的所述多个时频拼贴的多个加权因子;以及将所述多个加权因子应用于所述多个时频拼贴,以通过所述回放系统的所述多个声道对对所述时频拼贴进行空间渲染。18.根据权利要求17所述的方法,其中将所述多个加权因子应用于所述多个时频拼贴包括:将针对所述多个声道对的所述多个时频拼贴的所述多个加权因子应用于所述多个时频拼贴和所述多个声道对中的对应一者的两个声道,以通过...

【专利技术属性】
技术研发人员:F
申请(专利权)人:苹果公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1