System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种针对增强现实的动态双耳音频渲染方法技术_技高网

一种针对增强现实的动态双耳音频渲染方法技术

技术编号:41252543 阅读:5 留言:0更新日期:2024-05-10 00:00
本发明专利技术涉及声学技术领域,具体涉及一种针对增强现实的动态双耳音频渲染方法,该方法包括:获取移动的单通道麦克风信号以及固定位置的多通道麦克风信号,重建出单麦克风位置的高阶声场信号;根据定位系统提供的位置信息确定听者坐标位置,基于听者坐标位置,确定坐标位置的高阶声场信号;将对应的高阶声场信号与单/多声源信号进行卷积,得到球阵信号;将所述球阵信号与头相关传递函数分别进行球谐表示,结合定位器提供的头转信息,在球谐域进行处理,得到双耳信号,并通过耳机播放。即本发明专利技术的方案能够提高空间声场的动态双耳渲染效果。

【技术实现步骤摘要】

本专利技术一般地涉及声学。更具体地,本专利技术涉及一种针对增强现实的动态双耳音频渲染方法


技术介绍

1、近年来,随着交互式设备和音频技术的发展,在增强现实(ar,augmentedreality)与虚拟现实(vr,virtual reality)场景中实现逼真的听觉体验十分重要。

2、其中,房间脉冲响应(rir,room impulse response)反应了房间内的声学信息,ambisonics格式则是作为一种三维环绕声场格式被广泛应用于空间声场的表示与重构技术。因此,在动态双耳渲染时,其主要包括两部分,第一部分是多通道房间脉冲响应(rir,room impulse response)的重建,第二部分是基于ambisonics进行双耳渲染。

3、其中,对于第一部分,其主要针对房间信息和声源、测量点位置信息均未知的情况下,只能测量房间内多点的rir,目前主要有三种方法进行多通道rir的插值,分别如下:

4、1)基于单点麦克风数据的声场参数化分析与合成

5、对于该方法,当插值的是一阶立体混响(foa,first order ambisonic)信号时,通常是基于dirac编码,每个时频点的foa信号由直达波和扩散两部分组成,其中声强矢量与声源方向(doa,direction of arrival)相关,基于平移定理随听者位置动态调整,混响部分保持不变。

6、当插值的是高阶双声波(hoa,higher order ambisonic)信号时,目前主要有如下的两种方法:a.将给定测量位置的hoa信号表示为(多个镜像源)直达波和混响分量,基于hoa信号的空间协方差矩阵以及主特征向量分析确定声源个数、定位以及直达波信号的提取,然后基于听者位置和姿态,更新直达波分量,混响部分则保持不变。这种方法需要声源距离信息作为先验信息。b.将给定测量位置的hoa信号表示为平面波和球面波的混合模式,即声源由近场和远场混合虚拟源表示,且假设声源空间分布是稀疏的。其中,近场声源用小半径(2m)的等效虚拟源分布来模拟,远场用大半径(20m)的平面波声源来模拟。在球谐域进行六自由度(6dof,six degrees of freedom)渲染,无需声源距离等先验信息,但需要听者在近场等效源半径范围内移动。

7、2)基于多点麦克风数据的声场插值

8、对多个均匀球阵录制的ambisonics信号进行线性插值时,以距离为权重,逐渐减小远距离麦克风对插值的影响,同时对不同阶数的球谐信号重调整,保证最近的麦克风对插值信号的影响最大,且使用与距离相关的低通滤波器模拟高频声音的自然衰减。

9、然而,当直接对ambisonics信号进行距离加权线性插值时,由于可能存在的问题,从而可能会产生类似梳状滤波的问题,从而影响听感、降低声场定位的准确性。因此,在插值时需要去掉更靠近声源的麦克风;具体为:首先使用多个球阵的doa定位结果,基于三角定理定位声源距离,将距离听者位置小于距离声源的麦克风选为有效麦克风,然后对p个麦克风数据基于距离定义权重w,基于球谐域平移矩阵m表示不同区域的声场,最后基于正则化最小二乘进行插值声场。

10、3)基于多点麦克风数据的声场参数化分析与合成

11、对于该方法,主要是基于参数化方法将声场建模为直达波和晚期混响,一种是针对各时频点的声场,一种是针对录制的ambisonics信号。

12、对于各时频点的声场,基于dirac编码,将各时频点声场建模为直达波和晚期混响,然后在插值点重构。具体为:

13、首先,进行声源doa估计:在每个测量点基于srp定位声源doa,基于三角定位法则对多个测量点的定位结果进行匹配分析;

14、其次,估计直达波和混响分量:基于时频点cdr估计每个高阶麦克风的直达波分量和混响分量;

15、然后,进行声场插值:基于外部声场球谐分解和声源位置插值直达波分量,基于距离加权插值混响幅度分量,相位部分为最近测量点的测量数据。

16、对于录制的ambisonics信号,基于多点球谐域中的房间脉冲响应(arir,ambisonic room impulse responses)进行插值,根据检测出arir中的直达波和晚期混响,进行rir的插值。其基本思想是以距离为权重(1/r)的线性插值,根据声源、测量位置和插值位置的相对距离调整直达波/早期反射的时间和幅值。

17、具体地,对于单个arir:

18、首先,由于大多数实测的arir是一阶的,因此基于一阶arir进行参数估计,当然这也同样适用于高阶声场信号(简称为高阶arir或者hoa rirs)。根据arir的全向和一阶分量估计直达波的到达时间(toa,time of arrival)和doa,并检测其峰值。

19、可通过伪强度向量的平均幅值检测直达波的toa,即

20、

21、

22、其中,没有带宽限制,表示超过0.5ms的哈明窗移动平均滤波器。

23、超过预定义阈值的的每个最大值被定义为峰值的到达时间,阈值的选择取决于房间的混响。根据ambisonic空间分解方法(asdm,ambisonic spatial decompositionmethod),由有限带宽的一阶arir的平滑伪强度向量估计对应于该峰值toa的doa,即

24、

25、

26、其中,是一阶arir的零阶全向arir通道,分别是指向x, y和z的一阶arir通道。下标表示200 hz到3 khz之间的零相位带通滤波,是长度为0.25ms的零相位平均滤波器。

27、其次,根据所有arir中的时间差(tdoa,time difference of arrival)和toa来定位直达声,基于三个相邻的arir峰值匹配定位早期反射。

28、由于优先级效应,直达声在感知方向这一方面通常占主导地位,因此为了确保直达声(即声源位置)定位的准确性,这里根据多个arir的直达声峰值间的tdoas进行直达声定位。这可以通过使用线性修正最小二乘(linear correction least-squares,lcls)估计量通过约束优化最小化式(1-13)中的二维球面ls代价函数来实现。

29、

30、其中,是第i个arir直达声的doa,t是其直达声对应的toa,,为第i个arir的测量位置。

31、通过最小化角度误差函数(1-14)来选择唯一的直达声(即声源位置),即

32、

33、

34、

35、在匹配早期反射时,假设位置变动较小时对听感影响很小,基于三个相邻arir的tdoa就可以实现较为精确的定位。使用球面交点(spherical intersection,sx)估计器作为基于tdoa的峰值定位器,由于sx估计器最初是为三维接收器阵列和设计的,因此对于三元组,其形式应用本文档来自技高网...

【技术保护点】

1.一种针对增强现实的动态双耳音频渲染方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种针对增强现实的动态双耳音频渲染方法,其特征在于,所述双耳信号为:

3.根据权利要求1所述的一种针对增强现实的动态双耳音频渲染方法,其特征在于,所述重建出单通道麦克风位置的高阶声场信号的具体过程为:

4.根据权利要求3所述的一种针对增强现实的动态双耳音频渲染方法,其特征在于,所述采用预先构建的条件对抗网络,生成ARIR晚期混响的具体过程为:

5.根据权利要求4所述的一种针对增强现实的动态双耳音频渲染方法,其特征在于,所述训练数据集包括公开数据集中的单通道RIR的晚期混响数据集及其对应的实测ARIR的晚期混响数据集构成训练数据集以及当前实测的单通道RIR的晚期混响以及对应实测的ARIR的晚期混响构成测试数据集。

6.根据权利要求4所述的一种针对增强现实的动态双耳音频渲染方法,其特征在于,所述条件对抗网络包括生成器和判断器;生成器和判断器均包括输入层、卷积层和输出层。

7.根据权利要求4所述的一种针对增强现实的动态双耳音频渲染方法,其特征在于,还包括获取早期残差分量的步骤;

8.根据权利要求1所述的一种针对增强现实的动态双耳音频渲染方法,其特征在于,所述基于听者坐标位置,确定坐标位置的高阶声场信号的过程为:

...

【技术特征摘要】

1.一种针对增强现实的动态双耳音频渲染方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种针对增强现实的动态双耳音频渲染方法,其特征在于,所述双耳信号为:

3.根据权利要求1所述的一种针对增强现实的动态双耳音频渲染方法,其特征在于,所述重建出单通道麦克风位置的高阶声场信号的具体过程为:

4.根据权利要求3所述的一种针对增强现实的动态双耳音频渲染方法,其特征在于,所述采用预先构建的条件对抗网络,生成arir晚期混响的具体过程为:

5.根据权利要求4所述的一种针对增强现实的动态双耳音频渲染方法,其特征在于,所述训练数据集包括公开数据集中的单...

【专利技术属性】
技术研发人员:张雯凡亚珂夏嘉维
申请(专利权)人:西北工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1