高效的头部相关滤波器生成制造技术

技术编号:37041501 阅读:24 留言:0更新日期:2023-03-29 19:20
提供了一种用于生成用于音频渲染的头部相关(HR)滤波器的方法。该方法包括:生成指示HR滤波器模型的HR滤波器模型数据;以及基于所生成的HR滤波器模型数据,(i)对一个或多个基函数进行采样以及(ii)生成第一基函数形状数据和形状元数据。该方法还包括:提供所生成的第一基函数形状数据和形状元数据以存储在一个或多个存储介质中。个或多个存储介质中。个或多个存储介质中。

【技术实现步骤摘要】
【国外来华专利技术】高效的头部相关滤波器生成


[0001]公开了与用于高效的头部相关滤波器生成的方法和系统相关的实施例。

技术介绍

[0002]人类听觉系统配备有可以捕捉向听者传播的声(音频)波的两只耳朵。在本公开中,词“声音”和词“音频”可互换使用。图1示出了从由球坐标系中的一对仰角和方位角指定的到达方向(DOA)朝向听者传播的声波。在朝向听者的传播路径上,每个声波在到达听者的左耳膜和右耳膜之前与听者的上躯干、头部、外耳、以及围绕听者的物质相互作用。这种相互作用导致到达左耳膜和右耳膜的声音波形的时间和频谱变化,其中一些是DOA相关的。人类听觉系统已经学会解释这些变化来推断声波本身的各种空间特性以及听者发现自己所在的声学环境。该能力被称为空间听觉,其涉及听者如何评估嵌入在双耳信号(即,左右耳道中的声音信号)中的空间线索以推断由声音事件(物理声源)引起的听觉事件的位置和由听者所在的物理环境(例如,小房间、瓷砖浴室、礼堂、洞穴)引起的声学特性。通过重新引入双耳信号中的将导致对声音的空间感知的空间线索,可以反过来利用该人类能力(即,空间听觉)来创建空间音频场景。
[0003]主要的空间线索包括(1)角度相关的线索:双耳线索(即耳间声强差(ILD)和耳间时间差(ITD))和单耳(或频谱)线索;以及(2)距离相关的线索:强度和直接混响(D/R)能量比。波形的短时间(例如,1至5毫秒)DOA相关或角度相关的时间和频谱变化的数学表示是所谓的头部相关(HR)滤波器。HR滤波器的频域(FD)表示是所谓的头部相关传递函数(HRTF),并且HR滤波器的时域(TD)表示是所谓的头部相关脉冲响应(HRIR)。图2示出了朝向听者传播的声波以及到耳朵的声音路径的差异,该差异导致了ITD。图14示出了图2所示的声波的频谱线索(HR滤波器)的示例。图14所示的两个曲线图示出了在0度仰角(θ)和40度方位角(φ)处获得的一对HR滤波器的幅度响应。该数据来自图像处理和集成计算中心(CIPIC)数据库:主题

ID 28。该数据库是公开的,并且可以从链接https://www.ece.ucdavis.edu/cipic/spatial

sound/hrtf

data/访问。
[0004]已经逐渐建立了基于HR滤波器的双耳渲染方法,其中,空间音频场景是通过使用期望位置的一对HR滤波器直接对音频源信号进行滤波来生成的。该方法对于许多新兴应用(例如虚拟现实(VR)、增强现实(AR)或混合现实(MR)(其有时被统称为扩展现实(XR)))以及通常使用耳机的移动通信系统特别具有吸引力。
[0005]HR滤波器通常从测量中被估计为线性动态系统的脉冲响应,该线性动态系统将原始声音信号(即,输入信号)转换为左耳和右耳信号(即,输出信号),其可以在收听对象(例如,人造头、人体模型或人类受试者)的恒定半径球面上以仰角和方位角的预定义集合在收听对象的耳道内进行测量。所估计的HR滤波器通常作为有限脉冲响应(FIR)滤波器来提供,并且可以直接以该格式使用。为了实现高效的双耳渲染,可以将一对HRTF转换为耳间传递函数(ITF)或经修改的ITF,以防止突然的频谱峰值。备选地,HRTF可以通过参数表示来描述。这种参数化HRTF可以很容易地与参数多通道音频编码器(例如,MPEG环绕声和空间音频
对象编码(SAOC))集成。
[0006]为了讨论不同空间音频渲染技术的质量,最小可听角(MAA)的概念可能是有用的。MAA表征人类听觉系统对声音事件的角位移的敏感度。关于方位角定位,研究报告称,MAA在前后中最小(约1度),而对于宽带噪声突发的侧向声源则大得多(约10度)。中位面中的MAA随仰角而增加。据报道,宽带噪声突发的平均仰角小至4度的MAA。
[0007]导致对空间中任意位置处的声音的令人信服的空间感知的音频空间渲染需要表示对应位置的MAA内的位置的一对HR滤波器。如果HR滤波器的角度差异低于限制(即,如果HR滤波器的角度在MAA内),则听者不会注意到差异。然而,如果差异大于该限制(即,如果HR滤波器的角度在MAA之外),则这种较大的位置差异可以导致听者感知到的相应更明显的位置不准确。

技术实现思路

[0008]HR滤波器测量在有限的测量位置处进行,但音频渲染可能需要确定围绕听者的球体(例如,图1中的150)上的任何可能位置的滤波器。因此,需要一种映射方法将在有限测量位置处进行的离散测量转换为连续球角域。存在用于这种映射的若干方法。该方法包括直接使用最近的可用测量、使用插值方法和/或使用建模技术。
[0009]1.直接使用最近相邻测量点
[0010]用于映射的最简单技术是使用测量点集合中最接近(即,最近)点处的HR滤波器。可能需要一些计算工作来确定最近相邻测量点,并且这种工作对于围绕听者的球体上的不规则采样的测量点集合可能变得重要。对于一般的对象位置,在期望的滤波器位置(对应于对象位置)与最接近的可用HR滤波器测量点之间可以存在一些角度误差。对于稀疏采样的HR滤波器测量集合,这可以导致对象位置的明显误差。当使用更密集采样的测量点集合时,该误差可以被减少或被有效地消除。对于移动的对象,HR滤波器以逐步方式改变,这与预期的平滑移动不对应。
[0011]通常,HR滤波器的密集采样测量难以对人类受试者进行,因为它们要求受试者在数据收集期间必须坐着不动,并且受试者的小的意外移动限制可以实现的角分辨率。此外,测量过程对于受试者和技术人员两者都是耗时的。在给定稀疏采样的HR滤波器数据集(如下说明)的情况下,代替采用这种密集采样的测量,推断关于缺失HR滤波器的空间相关信息可能更高效。对于人工头,密集采样的HR滤波器测量更容易捕获,但所得的HR滤波器集合并不总是非常适合于所有听者,有时会导致感知不准确或模糊的对象位置。
[0012]2.相邻测量点之间的插值
[0013]如果样本测量点不足以密集地间隔开,则可以使用相邻测量点之间的插值来生成所需DOA的近似滤波器。插值的滤波器在离散样本测量点之间以连续方式变化,从而避免了使用上述方法(即,方法1)时可能发生的突然变化。该插值方法在生成插值的HR滤波器值时产生附加复杂度,由于来自不同位置的滤波器的混合,所得HR滤波器具有变宽的(不太像点的)感知DOA。此外,需要采取措施防止直接混合滤波器而引起的相位问题,这可以增加附加的复杂度。
[0014]3.基于建模的滤波器生成
[0015]可以使用更先进的技术来构建用于底层系统的模型,该模型产生HR滤波器以及它
们如何随角度变化。给定HR滤波器测量的集合,调整模型参数来以最小的误差重现测量,从而创建一种机制,用于不仅在测量位置处生成HR滤波器,而且更一般地作为角度空间的连续函数。
[0016]存在用于生成HR滤波器作为DOA的连续函数的其他方法,其不需要输入测量值集合,而是使用对听者头部和耳朵的高分辨率3D扫描对听者头部周围的波传播进行建模以预测HR滤波器的行为。
[0017]本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于生成用于音频渲染的头部相关HR滤波器的方法(1100),所述方法包括:生成(s1102)指示HR滤波器模型的HR滤波器模型数据,其中,生成所述HR滤波器模型数据包括:选择一个或多个基函数的至少一个集合;基于所生成的HR滤波器模型数据,(i)对所述一个或多个基函数进行采样(s1104)以及(ii)生成(s1106)第一基函数形状数据和形状元数据,其中,所述第一基函数形状数据标识所述一个或多个基函数的一个或多个紧凑表示,并且所述形状元数据包括关于与所述一个或多个基函数相关的所述一个或多个紧凑表示的结构的信息;以及提供(s1108)所生成的第一基函数形状数据和形状元数据以存储在一个或多个存储介质中。2.根据权利要求1所述的方法,所述方法还包括:检测(s1110)触发事件的发生;以及作为检测到所述触发事件的发生的结果,输出(s1112)用于所述音频渲染的第二基函数形状数据和所述形状元数据。3.根据权利要求1或2所述的方法,其中,一个或多个基函数的所述至少一个集合被选择为使得满足以下条件中的任何一个或组合:(i)一个或多个基函数的所述至少一个集合在建模范围内是周期性的;(ii)所述至少一个集合中包括的至少一个基函数在所述建模范围内包括的一个或多个段中为零值;(iii)所述至少一个集合中包括的至多N个基函数在所述建模范围内包括的段中为非零,其中,N是正整数且小于所述至少一个集合中包括的基函数的总数;以及(iv)所述一个或多个基函数的至少一个非零部分是以下中的任何一个或组合:(1)相对于所述一个或多个基函数的另一非零部分是对称的或镜像的或(2)所述一个或多个基函数的另一非零部分的子采样版本。4.根据权利要求1至3中任一项所述的方法,其中,所述一个或多个基函数的紧凑表示指示所述一个或多个基函数的非零部分的形状,以及所述一个或多个基函数的所述非零部分的形状相对于所述一个或多个基函数的另一非零部分的形状是对称的或镜像的。5.根据权利要求1至4中任一项所述的方法,其中,所述形状元数据包括以下信息中的任何一个或组合:(i)基函数的数量;(ii)每个基函数的起点;(iii)一个或多个形状索引,每个形状索引标识用于音频渲染的特定形状;(iv)针对一个或多个基函数的形状重采样因子;(v)针对一个或多个基函数的翻转指示符,其中,所述翻转指示符指示是否获得所述一个或多个存储介质中存储的所述一个或多个基函数的所述一个或多个紧凑表示的翻转版本;(vi)基函数结构,以及(vii)每个基函数的非零部分的宽度。
6.根据权利要求1至5中任一项所述的方法,还包括:提供附加的HR滤波器模型参数以存储在所述一个或多个存储介质中。7.根据权利要求1至6中任一项所述的方法,其中,所述方法在触发所述音频渲染的事件的发生之前由预处理器执行。8.根据权利要求1至7中任一项所述的方法,其中,所述方法由网络实体中包括的预处理器执行,所述网络实体与音频渲染器是分离且不同的。9.根据权利要求1至8中任一项所述的方法,其中,所述第二基函数形状数据和所述形状元数据用于生成所述HR滤波器。10.根据权利要求1至9中任一项所述的方法,其中,所述第一基函数形状数据和所述第二基函数形状数据相同。11.根据权利要求1至9中任一项所述的方法,其中,所述第二基函数形状数据标识所述一个或多个基函数的所述一个或多个紧凑表示的转换版本,以及所述一个或多个基函数的所述一个或多个紧凑表示的转换版本是所述一个或多个基函数的所述一个或多个紧凑表示的对称或镜像版本和/或子采样版本。12.一种用于生成用于音频渲染的头部相关HR滤波器的方法(1200),所述方法包括:获得(s1202)形状元数据,所述形状元数据指示是否获得一个或多个基函数的一个或多个紧凑表示的转换版本;获得(s1204)基函数形状数据,所述基函数形状数据标识(i)所述一个或多个基函数的所述一个或多个紧凑表示或(ii)所述一个或多个基函数的所述一个或多个紧凑表示的转换版本;以及基于所获得的形状元数据和所获得的基函数形状数据,通过使用(i)所述一个或多个基函数的所述一个或多个紧凑表示或(ii)所述一个或多个基函数的所述一个或多个紧凑表示的转换版本来生成(s1206)所述HR滤波器。13.根据权利要求12所述的方法,所述方法还包括:在获得指示如何获得所述一个或多个基函数的所述一个或多个紧凑表示的转换版本的所述形状元数据之后,从存储介质获得与所述一个或多个基函数的所述一个或多个紧凑表示相对应的数据,其中,所述数据是以预定义方式获得的,使得获得所述一个或多个基函数的所述一个或多个紧凑表示的转换版本。14.根据权利要求12所述的方法,所述方法包括:接收标识所述一个或多个基函数的所述一个或多个紧凑表示的数据;以及提供所接收的数据以存储在存储介质中,其中,获得标识所述一个或多个基函数的所述一个或多个紧凑表示的转换版本的基函数形状数据包括:以预定义方式从所述存储介质读取所存储的数据。15.根据权利要求12至14中任一项所述的方法,其中,所述一个或多个基函数的所述一个或多个紧凑表示的转换版本是所述一个或多个基函数的所述一个或多个紧凑表示的对称或镜像版本和/或子采样版本。16.根据权利要求13至15中任一项所述的方法,其中,以所述预定义方式获得所述数据
包括:(i)以预定义顺序获得所述数据和/或(ii)部分地获得所述数据。17.根据权利要求12至16中任一项所述的方法,所述方法还包括:获得...

【专利技术属性】
技术研发人员:托马斯
申请(专利权)人:瑞典爱立信有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1