用音频信号及相关联元数据表示空间音频制造技术

技术编号:26045532 阅读:67 留言:0更新日期:2020-10-23 21:26
本发明专利技术提供用于表示空间音频的编码及解码方法,所述空间音频是定向声音与扩散声音的组合。实例性编码方法尤其包含:通过下混来自捕获所述空间音频的音频捕获单元中的多个麦克风的输入音频信号创建单通道或多通道下混音频信号;确定与所述下混音频信号相关联的第一元数据参数,其中所述第一元数据参数指示以下项中的一或多者:与每一输入音频信号相关联的相对时间延迟值、增益值及相位值;及将所述经创建下混音频信号及所述第一元数据参数组合成所述空间音频的表示。

【技术实现步骤摘要】
【国外来华专利技术】用音频信号及相关联元数据表示空间音频相关申请案的交叉参考此申请案主张以下专利申请案的优先权权益:2018年11月13日申请的第62/760,262号美国临时专利申请案;2019年1月22日申请的第62/795,248号美国临时专利申请案;2019年4月2日申请的第62/828,038号美国临时专利申请案;及2019年10月28日申请的第62/926,719号美国临时专利申请案,其内容特此以引用方式并入。
本文中的揭示内容大体上涉及包括音频对象的音频场景的编码。特定来说,其涉及用于表示空间音频的方法、系统、计算机程序产品及数据格式,及用于编码、解码及渲染空间音频的相关联编码器、解码器及渲染器。
技术介绍
将4G/5G高速无线接入引入电信网络,再加上功能日益强大的硬件平台的可用性,已为比以往任何时候都更快且更容易地部署高级通信及多媒体服务提供基础。第三代合作伙伴计划(3GPP)增强语音服务(EVS)编解码器已通过引入超宽带(SWB)及全带(FB)语音及音频编码以及改进的数据包丢失复原,高度显著地改善用户体验。然而,扩展的音频带宽只是真正沉浸式体验所需的维度之一。理想地,以资源有效的方式使用户沉浸在令人信服的虚拟世界中需要支持超过由EVS当前提供的单声道及多声道-单声道。另外,3GPP中当前指定的音频编解码器为立体声内容提供合适的质量及压缩,但缺少对话语音及电话会议所需的对话特征(例如足够低的延时)。这些编码器还缺少沉浸式服务(例如实时流、虚拟现实(VR)及沉浸式电话会议)所必需的多通道功能性。已经为沉浸式语音及音频服务(IVAS)提出对EVS编解码器的扩展,以填补此技术空白并解决对丰富的多媒体服务不断增长的需求。另外,经过4G/5G的电话会议应用将受益于IVAS编解码器用作支持多流编码(例如,基于通道、对象及场景的音频)的改进的会话编码器。此下一代编解码器的用例包含(但不限于)对话语音、多流电话会议、VR对话及用户产生的实时及非实时内容流。虽然目标是开发具有有吸引力的特征及性能(例如,出色的音频质量、低延迟、空间音频编码支持、适当的比特率范围、高质量的错误复原、实际的实施复杂性)的单个编解码器,但目前尚无关于IVAS编解码器的音频输入格式的最终协议。已提出元数据辅助空间音频格式(MASA)作为一种可能的音频输入格式。然而,常规MASA参数做出某些理想的假设,例如在单个点中完成的音频捕获。然而,在真实世界案例中,在使用移动电话或平板计算机作为音频捕获装置的情况下,单个点中的声音捕获的此假设可能不成立。确切来说,取决于特定装置的形状因子,装置的各种麦克风可能位于相距一定距离处,且不同经捕获麦克风信号可能未完全进行时间对准。当还考虑音频的源如何在空间中四处移动时,尤其是这样。MASA格式的另一个基本假设是,所有麦克风通道都是以相等电平提供,且其之间的频率与相位响应不存在差异。再有,在真实世界案例中,麦克风通道可能具有不同方向相关频率及相位特性,这也可能随时间变化。例如,可以假设音频捕获装置被临时保持,使得麦克风中的一个被遮挡,或电话附近存在导致到达的声波发生反射或衍射的一些物体。因此,在确定哪个音频格式将适合与编解码器(例如IVAS编解码器)结合使用时,还存在许多额外因素需要考虑。附图说明现将参考附图描述实例实施例,其中:图1是根据实例性实施例的用于表示空间音频的方法的流程图;图2是根据实例性实施例的(分别地)音频捕获装置及定向及扩散声源的示意图;图3A展示根据实例性实施例的通道位值参数如何指示有多少通道用于MASA格式的表(表1A)。图3B展示根据实例性实施例的可用于表示下混到两个MASA通道中的平面FOA及FOA捕获的元数据结构的表(表1B);图4展示根据实例性实施例的每一麦克风及每TF片(tile)的延迟补偿值的表(表2);图5展示根据实例性实施例的可用于指示哪一补偿值集应用于哪一TF片的元数据结构的表(表3);图6展示根据实例性实施例的可用于表示每一麦克风的增益调整的元数据结构的表(表4);图7展示根据实例性实施例的包含音频捕获装置、编码器、解码器及渲染器的系统。图8展示根据实例性实施例的音频捕获装置。图9展示根据实例性实施例的解码器及渲染器。所有图都是示意性的且大体上仅展示为了阐明本专利技术所必要的部件,而可省略或仅仅暗示其它部件。除非另外指示,否则相似参考数字指代不同图中的相似部件。具体实施方式鉴于上述内容,因此,目的是提供用于空间音频的改进表示的方法、系统及计算机程序产品以及数据格式。还提供用于空间音频的编码器、解码器及渲染器。I.概述-空间音频的表示根据第一方面,提供用于表示空间音频的方法、系统、计算机程序产品及数据格式。根据实例性实施例,提供一种用于表示空间音频的方法,所述空间音频是定向声音与扩散声音的组合,所述方法包括:·通过下混来自捕获所述空间音频的音频捕获单元中的多个麦克风的输入音频信号创建单通道或多通道下混音频信号;·确定与所述下混音频信号相关联的第一元数据参数,其中所述第一元数据参数指示以下项中的一或多者:与每一输入音频信号相关联的相对时间延迟值、增益值及相位值;及·将所述经创建下混音频信号及所述第一元数据参数组合成空间音频的表示。在上述布置下,考虑多个麦克风的不同性质及/或空间位置,可实现空间音频的经改进表示。此外,在编码、解码或渲染的后续处理阶段中使用元数据可有助于在表示呈比特率有效编码形式的音频时如实地表示及重构经捕获音频。根据实例性实施例,将经创建下混音频信号及第一元数据参数组合成空间音频的表示可进一步包括在所述空间音频的所述表示中包含第二元数据参数,所述第二元数据参数指示输入音频信号的下混配置。此优势在于:其允许在解码器处重构(例如,通过上混操作)输入音频信号。此外,通过提供第二元数据,进一步下混可在将所述空间音频的所述表示编码到位流之前由单独单元执行。根据实例性实施例,可针对麦克风输入音频信号的一或多个频带确定第一元数据参数。此优势在于:其允许个别地调试延迟、增益及/或相位调整参数,例如,考虑针对麦克风信号的不同频带的不同频率响应。根据实例性实施例,用以创建单通道或多通道下混音频信号x的下混可通过以下项来描述:x=D·m其中:D是含有定义针对来自所述多个麦克风的每一输入音频信号的权重的下混系数的下混矩阵,且m是表示来自所述多个麦克风的所述输入音频信号的矩阵。根据实例性实施例,可选取下混系数来选择当前具有关于定向声音的最佳信噪比的麦克风的输入音频信号,及丢弃来自任何其它麦克风的信号输入音频信号。此优势在于:其允许在减小音频捕获单元处的计算复杂性的情况下实现空间音频的良好质量表示。在此实施例中,选取仅一个输入音频信号来表示特定音频帧及/或时间频率片中的空间音频。因此,减小下混操作的计算复杂性。本文档来自技高网...

【技术保护点】
1.一种用于表示空间音频的方法,所述空间音频是定向声音与扩散声音的组合,所述方法包括:/n通过下混来自捕获所述空间音频的音频捕获单元中的多个麦克风(m1、m2、m3)的输入音频信号创建单通道或多通道下混音频信号;/n确定与所述下混音频信号相关联的第一元数据参数,其中所述第一元数据参数指示以下项中的一或多者:与每一输入音频信号相关联的相对时间延迟值、增益值及相位值;及/n将所述经创建下混音频信号及所述第一元数据参数组合成所述空间音频的表示。/n

【技术特征摘要】
【国外来华专利技术】20181113 US 62/760,262;20190122 US 62/795,248;20191.一种用于表示空间音频的方法,所述空间音频是定向声音与扩散声音的组合,所述方法包括:
通过下混来自捕获所述空间音频的音频捕获单元中的多个麦克风(m1、m2、m3)的输入音频信号创建单通道或多通道下混音频信号;
确定与所述下混音频信号相关联的第一元数据参数,其中所述第一元数据参数指示以下项中的一或多者:与每一输入音频信号相关联的相对时间延迟值、增益值及相位值;及
将所述经创建下混音频信号及所述第一元数据参数组合成所述空间音频的表示。


2.根据权利要求1所述的方法,其中将所述经创建下混音频信号及所述第一元数据参数组合成所述空间音频的表示进一步包括:
在所述空间音频的所述表示中包含第二元数据参数,所述第二元数据参数指示所述输入音频信号的下混配置。


3.根据权利要求1或2所述的方法,其中针对所述麦克风输入音频信号的一或多个频带确定所述第一元数据参数。


4.根据权利要求1到3中任一权利要求所述的方法,其中用以创建单通道或多通道下混音频信号x的所述下混通过以下项来描述:
x=D·m
其中:
D是含有定义针对来自所述多个麦克风的每一输入音频信号的权重的下混系数的下混矩阵,且
m是表示来自所述多个麦克风的所述输入音频信号的矩阵。


5.根据权利要求4所述的方法,其中选取所述下混系数来选择当前具有关于所述定向声音的最佳信噪比的所述麦克风的所述输入音频信号,及丢弃来自任何其它麦克风的信号输入音频信号。


6.根据权利要求5所述的方法,其中所述选择是针对每时间频率TF片基础做出的。


7.根据权利要求5所述的方法,其中所述选择是针对特定音频帧的所有频带做出的。


8.根据权利要求4所述的方法,其中当组合来自所述不同麦克风的所述输入音频信号时,选取所述下混系数以最大化关于所述定向声音的所述信噪比。


9.根据权利要求8所述的方法,其中所述最大化是针对特定频带进行的。


10.根据权利要求8所述的方法,其中所述最大化是针对特定音频帧进行的。


11.根据权利要求1到10中任一权利要求所述的方法,其中确定第一元数据参数包含分析以下项中的一或多者:来自所述多个麦克风的所述输入音频信号的延迟、增益及相位特性。


12.根据权利要求1到11中任一权利要求所述的方法,其中所述第一元数据参数是以每时间频率TF片为基础确定的。


13.根据权利要求1到12中任一权利要求所述的方法,其中所述下混的至少一部分发生于所述音频捕获单元中。


14.根据权利要求1到12中任一权利要求所述的方法,其中所述下混的至少一部分发生于编码器中。


15.根据权利要求1到14中任一权利要求所述的方法,其进一步包括:
响应于检测到一个以上定向声源,针对每一源确定第一元数据。


16.根据权利要求1到15中任一权利要求所述的方法,其中所述空间音频的所述表示包含以下参数中的至少一者:方向指数;直接能与总能比;扩展相干性;每一麦克风的到达时间、增益及相位;扩散能与总能比;周围相干性;剩余能与总能比;及距离。


17.根据权利要求1到16中任一权利要求所述的方法,其中所述第二或第一元数据参数中的元数据参数指示所述经创建下混音频信号是从左右立体声信号产生,从平面一阶环境立体声FOA信号产生,还是从一阶环境立体声分量信号产生。


18.根据权利要求1到17中任一权利要求所述的方法,其中所述空间音频的所述表示含有组织到定义字段及选择符字段中的元数据参数,所述定义字段指定与所述多个麦克风相关联的至少一个延迟补偿参数集,且所述选择符字段指定延迟补偿参数集的所述选择。


19.根据权利要求18所述的方法,其中所述选择符字段指定将什么延迟补偿参数集应用于任何给定时间频率片。


20.根据权利要求1到19中任一权利要求所述的方法,其中所述相对时间延迟值大约是在[-2.0ms,2.0ms]的间隔内。


21.根据权利要求18所述的方法,其中所述空间音频的所述表示中的所述元数据参数进一步包含指定经应用增益调整的字段及指定相位调整的字段。


22.根据权利要求21所述的方法,其中所述增益调整大约是在[+10dB,-30dB]的间隔内。


23.根据权利要求1到22中任一权利要求所述的方法,其中使用存储于存储器中的查找表在所...

【专利技术属性】
技术研发人员:S·布鲁恩
申请(专利权)人:杜比实验室特许公司杜比国际公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1