确定个性化头部相关传递函数和耳间时间差函数的方法及用于执行该方法的计算机程序产品技术

技术编号:20988055 阅读:40 留言:0更新日期:2019-04-29 20:27
估计特定人的个体化头部相关传递函数(HRTF)和个体化耳间时间差函数(ITDF)的方法,包括以下步骤:a)获取多个数据集(Li,Ri,Oi),该多个数据集包括来自入耳式麦克风的左音频样本和右音频样本以及来自取向单元的取向信息(Oi),这些数据集在测试布置中被测量,其中经由扬声器来呈现声学测试信号并且人正在移动头部。b)提取耳间时间差值和/或频谱值、以及对应的取向值;c)使用预定义质量准则来估计扬声器相对于头部的方向;d)估计取向单元相对于头部的取向;e)估计个体化ITDF和个体化HRTF。一种用于执行该方法的计算机程序产品。一种包含计算机程序的数据载体。

A Method for Determining Personalized Head-related Transfer Function and Ear-to-ear Time Difference Function and a Computer Program Product for Executing the Method

The method of estimating individual head correlation transfer function (HRTF) and individual inter-ear time difference function (ITDF) includes the following steps: a) acquiring multiple data sets (Li, Ri, Oi), which include left and right audio samples from the ear-in microphone and orientation information (Oi) from the orientation unit. These data sets are measured in the test layout, where the data sets are measured by the following steps: 1) acquiring multiple data sets (Li, Ri, Oi). Acoustic test signals are presented by speakers and people are moving their heads. B) extract the time difference and/or spectrum values between ears and the corresponding orientation values; c) use predefined quality criteria to estimate the direction of speakers relative to the head; d) estimate the orientation of orientation units relative to the head; e) estimate the individualized ITDF and HRTF. A computer program product for executing this method. A data carrier containing a computer program.

【技术实现步骤摘要】
【国外来华专利技术】确定个性化头部相关传递函数和耳间时间差函数的方法及用于执行该方法的计算机程序产品专利
本专利技术涉及3D声音技术的领域。更具体而言,本专利技术涉及一种估计特定人的个体化头部相关传递函数(HRTF)和个体化耳间时间差函数(ITDF)的计算机实现的方法。本专利技术还涉及计算机程序产品和包括这种计算机程序产品的数据载体,以及包括这种数据载体的部件套件。专利技术背景在过去几十年中,在虚拟现实
已取得了很大进展,特别是在视觉虚拟现实方面。3D电视屏幕已进入公众视野,尤其是家庭影院和视频游戏利用3D电视屏幕。但3D声音技术仍然落后。然而,至少在理论上,创建虚拟3D声学环境(被称为虚拟听觉空间(VAS))相当容易。当人在3D空间中定位声音时,他们使用由左耳和右耳拾取的两个音频信号。由此,一个重要提示是所谓的“耳间时间差”(ITD):取决于声音的方向(相对于人头部),声音将首先到达左耳或右耳,并且该时间差包含与侧角θ(参见图2)有关的信息。耳间时间差函数(ITDF)描述了ITD随着声源(例如,扬声器)的方向如何变化,例如参见图3。其他提示被包含在声音的频谱内容中,而声音由内耳记录。毕竟,在来自某个方向的声波到达鼓膜之前,它们会干扰身体、头部和耳廓。并且通过这种干扰,一些频率比其他频率更容易传送;因此,出现取决于传出声音的方向的频谱滤波。该滤波由所谓的“头部相关传递函数”(HRTF)来描述(参见图4中的示例),该HRTF针对声源的每个方向描述了每个频率的被传送或被滤除的比例。在双耳中接收到的信号的频谱内容由此包含关于声源位置的附加信息(被称为:频谱提示),尤其是关于仰角(参见图2)、声源相对于头部所位于的高度,而且还有声源是位于人的前方还是后方。为了创建逼真的3D声学虚拟现实(例如,通过音频呈现系统),因此知道特定人的ITDF和HRTF是至关重要的。当这些已知时,可以针对任何特定方向人为地添加适当的时间延迟和频谱滤波,并且以此方式,给予收听者必要的提示(时间提示和频谱提示)以重构3D世界。目前,市场上已经有很多应用使用HRTF来创建虚拟3D印象,但到目前为止它们还未被广泛使用。毕竟,这些应用使用单一、通用的ITDF和HRTF集,该ITDF和HRTF集被假设为适用于广泛的受众。正如3D视觉系统一样(3D视觉系统假设每个人的眼睛之间的距离相同),这些系统利用平均ITDF和HRTF。虽然这不会对视觉造成重大问题,但对3D音频造成重大问题。当对于个人而言,眼睛之间的距离与平均距离显著不同时,可能发生用户深度感知不是最佳的,从而造成感觉“某些东西出错”,但与3D音频相关的问题严重得多。小的差异可能造成大的误差。在装备有虚拟“平均耳朵”的情况下,用户有效地体验空间效果-声音不再在头部内部,而是在头部之外的某处,但是关于传出声音的方向通常存在很多混淆。大多数错误是在对仰角的感知中犯下的,但同时,更加令人烦扰的是:前后经常互换。实际上应该来自前方的声音被感知为来自后方,这显著降低了该技术的有用性。因此,尽管事实上不同人的HRTF和ITDF相似,但是人的真实HRTF和ITDF与通用HRTF和ITDF之间的微小差异导致误差,与3D视觉形成对比,这些误差对空间体验是有害的。这可能是为何通过立体声耳机的VAS尚未实现其全部潜力的原因之一。因此,为了最佳地利用该技术,有必要使用个性化HRTF和ITDF。但是如何大规模实现这一目标,以使得公众可获取该技术?传统上使用专门的基础设施来记录人的HRTF和ITDF:在消声室中,其中声源被置于对象周围,并且对于每个被采样方向,通过麦克风装置来记录抵达左耳和右耳的对应信号,这些麦克风装置被布置在对象的左耳和右耳中,就布置在耳道的入口处。尽管近年来已取得进展并且已开发新方法来简化该规程,但是此类测量仍然非常麻烦且昂贵。因此不可能以此方式来测量所有潜在用户的HRTF和ITDF。因此,需要寻找其他方式来个体化HRTF和ITDF。US5729612A描述了一种用于在消声室外部测量头部相关传递函数的方法和装置。在该文档中,提出使用由安装在特殊支撑件上的扬声器输出的声波来测量HRTF。左右音频信号由对象所佩戴的两个入耳式麦克风捕获,该对象的头部移动由位置传感器跟踪和/或该对象坐在可以在特定(已知)方向上取向的椅子上。数据将在远程计算机中被处理。该文档没有关于如何确切地根据测得的音频信号和位置信号来计算ITDF和HRTF的记载。然而,使用校准步骤来确定扬声器和麦克风的传递特性,并且该方法还严重依赖于人和扬声器的相对位置是确切已知的事实。仍有改进的空间或替代方案。专利技术概述本专利技术的各实施例的目的是提供用于确定或估计个性化耳间时间差函数(ITDF)和个性化头部相关传递函数(HRTF)的良好方法和良好计算机程序产品。本专利技术的各实施例的目的是提供一种用于基于由最终用户自己捕获的数据,以相对简单的测试布置且不需要特定技能或专业装备来确定或估计个性化ITDF和个性化HRTF的方法和计算机程序产品。本专利技术的各实施例的目的是提供一种方法以及用于在家中的几乎任何房间中执行该方法的计算机程序产品,并且基本上仅需要合适的计算设备、入耳式麦克风、扬声器以及通常在智能电话(anno2016)中找到的“低端”取向单元。“低端”意指取向信息不需要高度准确(例如,±5°的角位置是可接受的),并且一些取向信息可能是不正确的,并且其中取向单元可以在任意位置和取向上被固定地安装到头部,并且人可以被置于扬声器的远场中的任意距离处,并且人不需要执行准确的移动。本专利技术的各实施例的目的是提供一种稳健(例如“万无一失”)的方法和稳健的计算机程序产品,该方法和计算机程序产品能够基于由入耳式麦克风捕获的左右音频样本并基于源自被固定安装到人的头部的取向单元的取向信息,使用由至少一个扬声器发射的音频刺激来确定或估计个性化耳间时间差函数(ITDF)和个性化头部相关传递函数(HRTF),但是其中,在捕获所述音频样本时头部相对于一个或多个扬声器的位置和/或距离和/或取向不是精确已知的。本专利技术的特定实施例的目的是提供一种方法和计算机程序产品,其允许使用测量地球磁场和/或加速度和/或角速度的取向单元(如可以在例如合适的智能电话anno2016中找到的)、并使用入耳式麦克风和扬声器(可任选地但不必与另一计算机(诸如举例而言膝上型计算机或台式计算机)相组合)来估计所述个性化ITDF和HRTF。这些和其他目的由本专利技术的各实施例来完成。在第一方面,本专利技术涉及一种在计算设备中估计特定人的个体化头部相关传递函数和个体化耳间时间差函数的方法,该方法包括以下步骤:a)获取或检索多个数据集,每个数据集包括源自左入耳式麦克风的左音频样本和源自右入耳式麦克风的右音频样本以及源自取向单元的取向信息,每个数据集的左音频样本和右音频样本以及取向信息在布置中基本上同时被捕获,其中:左入耳式麦克风被插入人的左耳中,并且右入耳式麦克风被插入到人的右耳中,并且人位于距扬声器一距离处,并且取向单元被固定地安装到人的头部,并且扬声器被布置成用于呈现包括多个音频测试片段的声学测试信号,并且人在呈现声学测试信号期间在多个不同取向上移动他或她的头部;b)从数据集提取或计算多个耳间时间差值和/或多个频谱值,以及取向单元的对应取本文档来自技高网...

【技术保护点】
1.一种用于在计算设备中估计特定人的个体化头部相关传递函数(HRTF)和个体化耳间时间差函数(ITDF)的方法(1000;1100),所述方法包括以下步骤:a)获取(1011;1111)或检索多个数据集(Li,Ri,Oi),每个数据集包括源自左入耳式麦克风的左音频样本(Li)和源自右入耳式麦克风的右音频样本(Ri)以及源自取向单元(604;704;804)的取向信息(Oi),每个数据集的左音频样本和右音频样本以及取向信息在布置中基本上是同时被捕获的,其中:所述左入耳式麦克风被插入所述人的左耳中,并且所述右入耳式麦克风被插入所述人的右耳中,并且所述人位于距扬声器(602;702;802)一距离处,并且所述取向单元被固定地安装到所述人的头部,并且所述扬声器被布置成用于呈现包括多个音频测试片段(Ci)的声学测试信号,并且所述人在所述声学测试信号的呈现期间在多个不同取向上移动他或她的头部;b)从所述数据集(Li,Ri,Oi)提取或计算多个耳间时间差值(ITDi)和/或多个频谱值(SLi_f,SRi_f)、以及所述取向单元的对应取向值;c)估计(1002;1102)所述扬声器相对于所述人的头部中心的平均位置、并且以世界参考系来表达的方向,包括以下步骤:1)采取候选源方向...

【技术特征摘要】
【国外来华专利技术】1.一种用于在计算设备中估计特定人的个体化头部相关传递函数(HRTF)和个体化耳间时间差函数(ITDF)的方法(1000;1100),所述方法包括以下步骤:a)获取(1011;1111)或检索多个数据集(Li,Ri,Oi),每个数据集包括源自左入耳式麦克风的左音频样本(Li)和源自右入耳式麦克风的右音频样本(Ri)以及源自取向单元(604;704;804)的取向信息(Oi),每个数据集的左音频样本和右音频样本以及取向信息在布置中基本上是同时被捕获的,其中:所述左入耳式麦克风被插入所述人的左耳中,并且所述右入耳式麦克风被插入所述人的右耳中,并且所述人位于距扬声器(602;702;802)一距离处,并且所述取向单元被固定地安装到所述人的头部,并且所述扬声器被布置成用于呈现包括多个音频测试片段(Ci)的声学测试信号,并且所述人在所述声学测试信号的呈现期间在多个不同取向上移动他或她的头部;b)从所述数据集(Li,Ri,Oi)提取或计算多个耳间时间差值(ITDi)和/或多个频谱值(SLi_f,SRi_f)、以及所述取向单元的对应取向值;c)估计(1002;1102)所述扬声器相对于所述人的头部中心的平均位置、并且以世界参考系来表达的方向,包括以下步骤:1)采取候选源方向2)向所述多个耳间时间差值(ITDi)的至少子集的每个成员和/或所述多个频谱值(SLi_f,SRi_f)的至少子集的每个成员指派与以所述取向单元的参考系表达的所采取源方向相对应的方向从而获取经映射数据集3)基于预定义质量准则来计算所述经映射数据集的质量值;4)针对与先前候选源方向不同的第二和/或进一步候选源方向重复步骤1)到3)至少一次;5)选择得到最高质量值的候选源方向作为所述扬声器相对于所述人的头部中心的平均位置的方向;d)估计(1003;1103)所述取向单元相对于所述头部的取向;e)基于所述多个数据集(Li,Ri,Oi)并基于步骤c)中所估计的所述扬声器相对于所述头部中心的平均位置的方向、以及基于步骤d)中所估计的所述取向单元相对于所述头部的取向,来估计(1005;1105)所述人的所述个体化ITDF和所述个体化HRTF;其中,步骤a)到步骤e)是由至少一个计算设备执行的。2.如权利要求1所述的方法,其特征在于,步骤b)包括:-定位所述多个数据集(Li,Ri,Oi)中的多个左音频片段(LFi)和多个右音频片段(RFi),每个左音频片段和每个右音频片段与由所述扬声器呈现的音频测试片段(Ci)相对应;-针对成对的对应的左音频片段和右音频片段(LFi,RFi)的至少子集计算耳间时间差值(ITDi);-针对每对对应的左音频片段和右音频片段(LFi,RFi)估计所述取向单元(604;704;804)的瞬时取向。3.如权利要求1或2所述的方法,其特征在于,步骤b)包括或进一步包括:-定位所述多个数据集(Li,Ri,Oi)中的多个左音频片段(LFi)和多个右音频片段(RFi),每个左音频片段和每个右音频片段与由所述扬声器呈现的音频测试片段(Ci)相对应;-计算针对每个左音频片段(LFi)的一组左频谱值(SLi_f)和/或计算针对每个右音频片段(RFi)的一组右频谱值(SRi_f),每组频谱值(SLi_f;SRi_f)包含对应于一个频谱频率的至少一个频谱值;-针对所述左音频片段(LFi)和/或所述右音频片段(RFi)的至少子集估计所述取向单元(604;704;804)的瞬时取向。4.如前述权利要求中任一项所述的方法,其特征在于,所述预定义质量准则是所述经映射数据的空间平滑度准则。5.如前述权利要求中任一项所述的方法,其特征在于,所述预定义质量准则基于所述经映射数据与参考表面之间的偏离或距离,其中,所述参考表面被计算为所述经映射数据的低通变型。6.如前述权利要求中任一项所述的方法,其特征在于,所述预定义质量准则基于所述经映射数据与参考表面之间的偏离或距离,其中,所述参考表面基于由有限数目的基函数的加权和定义的对所述经映射数据的近似。7.如权利要求6所述的方法,其特征在于,所述基函数是球谐函数。8.如权利要求1至3中任一项所述的方法,其特征在于,所述预定义质量准则是表达所述经映射ITDi数据的镜像反对称性程度的准则。9.如权利要求1至3中任一项所述的方法,其特征在于,所述预定义质量准则是表达所述经映射ITDi数据的圆柱形对称性程度的准则。10.如前述权利要求中的任一项所述的方法,其特征在于,进一步包括:f)估计(1503)与在步骤a)中捕获所述音频样本和所述取向信息时由所述人做出的头部移动相关的机械模型的模型参数;g)使用所述机械模型和所估计的模型参数来估计(1504)多个头部位置;并且其中,步骤c)包括使用步骤g)所估计的头部位置。11.如权利要求10所述的方法,其特征在于,所述机械模型被适配用于对所述头部围绕所述头部的中心的至少旋转以及以下移动中的至少一者进行建模:-所述人在坐在可旋转椅子上时围绕静止垂直轴的旋转;-所述人的颈部相对于所述人的躯干的移动。12.如前述权利要求中任一项所述的方法,其特征在于,步骤b)包括:-估计所述头部移动在多个音频片段上的轨迹;-在估计所述头部位置和/或头部取向时将所估计的轨迹纳入考虑。13.如前述权利要求中任一项所述的方法,其特征在于,步骤e)进一步包括估计所述扬声器和所述麦克风的经组合滤波特性,或包括调整所估计的ITDF以使得每频带的能量对应于通用ITDF的能量,并包括调整所估计的HRTF以使得每频带的能量对应于通用HRTF的能量。14.如权利要求13所述的方法,其特征在于,估计所述扬声器和所述麦克风的的经组合频谱滤波特性包括:-利用与所述扬声器的频谱滤波特性有关的先验信息,和/或-利用与所述麦克风的频谱滤波特性有关的先验信息。15.如前述权利要求中的任一项所述的方法,其特征在于:步骤b)使用将声学提示与空间信息关联的至少一个传递函数(IDFT,HRTF...

【专利技术属性】
技术研发人员:J·赖尼尔斯H·佩雷曼斯B·W·M·帕托恩斯
申请(专利权)人:安特卫普大学
类型:发明
国别省市:比利时,BE

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1