当前位置: 首页 > 专利查询>北京大学专利>正文

一种抗高频空间混叠的3D音频系统及实现方法技术方案

技术编号:24254538 阅读:212 留言:0更新日期:2020-05-23 01:14
本发明专利技术公开了一种抗高频空间混叠的3D音频系统及实现方法。本方法为:1)对于给定的球麦克风阵列,对球面声压进行采样,并对采样的球面声压进行离散球傅里叶变换;其中离散球傅里叶变换的展开阶数不大于截断阶数N;2)根据步骤1)离散球傅里叶变换的展开系数与球面声压展开的真实系数之间的关系得到空间混叠矩阵E;3)通过公式min(||s||

A 3D audio system against high frequency spatial aliasing and its implementation

【技术实现步骤摘要】
一种抗高频空间混叠的3D音频系统及实现方法
本专利技术属于3D音频
,具体涉及一种抗高频空间混叠的3D音频系统及实现方法。
技术介绍
3D音频技术主要指在音频回放时为使听者获得相应的空间听感而采用的相关技术。现在普遍采用的立体声或环绕声系统所重建的声像仅具备水平方向上的自由度,无法让声像脱离扬声器所在的平面,还未达到2D规格,与3D空间音频定义相差甚远。由于3D音频技术发展与3D视频技术发展的不对等,导致目前无论是在影院还是在家庭,主流的3D多媒体系统都是采用“3D视频+立体声/环绕声”方案,这种实施方案存在视觉感受和听觉感受不一致的缺陷,导致沉浸感和真实感不足,难以达到身临其境的效果。随着人们对声音真实感和沉浸感要求的不断提高以及虚拟现实相关技术的兴起,3D音频回放逐渐得到了重视。在3D音频回放中,最直接的手段是利用头相关传递函数(HeadRelatedTransferFunction,HRTF)模拟人对于空间中任一方位声源的感知,然而这种方法仅能实现特定方向的音频回放,并且存在前后混淆、头中效应等副作用。其他可行的主流方法有矢量幅度平移(VectorBasedAmplitudePanning,VBAP),波场合成(WaveFieldSynthsis,WFS)以及Ambisonics,并且基于Ambisonics的3D音频系统以其独特的优势更具发展前景。首先,它具有录制方便的特点,可以做到录制端和重放端各自独立,在录制时不需要考虑重放时扬声器的布局;其次,它还可向下兼容目前现有的立体声,5.1/7.1等非3D空间音频重放系统;再次,它可提供多种重放方式,既可以使用扬声器重放也可以使用耳机重放;最后,它可以实现基于头跟踪的双耳重放。Ambisonics具有较长的发展历史,20世纪70年代初,MichaelGerzon提出一阶Ambisonics的实现方案。由于一阶Ambisonics的低空间分辨率不能满足人们的需求,于是许多学者开始对高阶Ambisonics(HigherOrderAmbisonics,HOA)进行研究。HOA使用球谐函数作为空间的一组正交基来对声场进行球谐函数分解,得到多通道的HOA信号,根据HOA信号对声场进行分析和重构。理论上,使用的HOA阶数越高,可以精确重构的声场区域越大,但是实际应用中,它的阶数受到麦克风和扬声器个数的限制,随着编码阶数的升高,所需麦克风和扬声器的数量呈平方增加。基于Ambisonics的3D音频系统可以给用户提供足够的真实感和沉浸感,但是其在实际应用中还面临着一个关键的问题:可用频带窄问题(高频存在严重的空间混叠,方向发生紊乱)。采用32个麦克风的4阶HOA编码的3D音频系统的上截止频率为5.4kHz,这在一些对高频有要求的应用场景(如音乐会录制)是无法忍受的。高频空间混叠的产生是由于球面麦克风数量受限,不满足奈奎斯特空间采样定理。一个比较直接的方法是增加麦克风的数量和减小阵列的半径。增加麦克风的个数虽然可以缓解空间混叠,但是麦克风的数量跟上截止频率呈平方关系,随着上截止频率的提高,所需麦克风数量急剧增加以至于无法在实际中应用;在不改变麦克风个数的情况下减小阵列半径一方面受到制作工艺的限制,另一方面减小阵列半径会增加低频噪声放大的影响频率。也有学者提出使用多半径的球麦克风阵列结构来拓宽可用频带,但是多半径的阵列需要复杂和昂贵的阵列设计,在实际应用中较为受限。从上述分析可知,在硬件层面拓宽可用频带需要付出较大的代价,故需要一种新的抗空间混叠HOA编码算法,在不改变硬件结构的基础上能够极大限度地提高上截止频率,解决基于Ambisonics的3D音频系统可用频带窄的问题。
技术实现思路
本专利技术所要解决的问题是目前基于Ambisonics的3D音频系统可用频带窄的问题,该问题限制了系统在一些对声音有较高要求场景中的应用,如音乐会录制。针对此问题,本专利技术提供一种抗高频空间混叠的3D音频系统实现方法,利用球麦克风阵列发生空间混叠的固有混叠模式,结合稀疏恢复方法达到在高频进行HOA编码时不受空间混叠影响。本专利技术的技术方案为:一种抗高频空间混叠的3D音频系统实现方法,其步骤包括:1)对于给定的球麦克风阵列,对球面声压进行采样,并对采样的球面声压进行离散球傅里叶变换;其中离散球傅里叶变换的展开阶数不大于截断阶数N;2)根据步骤1)离散球傅里叶变换的展开系数与球面声压展开的真实系数pnm之间的关系得到空间混叠矩阵E;3)通过公式min(||s||1)、求解得到信号s;其中,YN是N阶的球傅立叶变换矩阵,B’N为根据球麦克风阵列的信号进行HOA编码得到的N阶HOA信号(存在混叠误差),ε是一设定值;4)根据步骤3)得到的信号s,通过公式BN=YNs将s编码到高阶N,获得不带混叠误差高阶的HOA信号BN;5)将步骤4)得到的HOA信号乘以球傅立叶变换的逆矩阵,进行重建声场,得到3D音频。进一步的,球麦克风阵列采集的信号频率f满足其中,c是声速,r为球麦克风阵列的半径。进一步的,截断阶数N<(M+1)2,M是球麦克风阵列中球面麦克风的个数。进一步的,空间混叠矩阵E为的矩阵;其中的元素为球面声压的球傅立叶展开阶数,Q是球面麦克风的数量。进一步的,将重建声场时得到的每个扬声器信号与对应扬声器的头相关冲击响应进行卷积再叠加,得到双耳信号,实现基于耳机的3D音频系统。一种抗高频空间混叠的3D音频系统,其特征在于,包括高阶HOA信号生成模块和重建声场模块;其中,高阶HOA信号生成模块,用于对球麦克风阵列的球面声压进行采样,并对采样的球面声压进行离散球傅里叶变换;其中离散球傅里叶变换的展开阶数不大于截断阶数N;然后根据离散球傅里叶变换的展开系数与球面声压展开的真实系数pnm之间的关系得到空间混叠矩阵E;然后通过公式min(||s||1)、求解得到信号s;其中,YN是N阶的球傅立叶变换矩阵,B’N为根据球麦克风阵列的信号进行HOA编码得到的N阶HOA信号,ε是一设定值;然后通过公式BN=YNs将s编码到N阶,获得N阶的HOA信号BN;重建声场模块,用于将得到的HOA信号乘以球傅立叶变换的逆矩阵,进行重建声场,得到3D音频。本专利技术的有益效果是:将球麦克风阵列(32个麦克风,4阶HOA编码)的上截止频率从5.4kHz提高到10kHz,解决了高频空间混叠问题,进而解决了基于Ambisonics的3D音频系统在不同场景的通用性问题。附图说明图1是基于Ambisonics的3D音频系统的全局方案;图2是抗空间混叠HOA(HigherOrderAmbisonics)编码的流程图;图3是半径为5cm的球麦克风阵列(32个麦克风,刚性球)的空间混叠模式图;图4为单声源实验的各频率的空间指向;(a)是使用理想的HOA信号,(b)传统的HOA编码方式,(c)本专利技术的编码方法,(d)本专利技术优化后的编码方法;<本文档来自技高网
...

【技术保护点】
1.一种抗高频空间混叠的3D音频系统实现方法,其步骤包括:/n1)对于给定的球麦克风阵列,对球面声压进行采样,并对采样的球面声压进行离散球傅里叶变换;其中离散球傅里叶变换的展开阶数不大于截断阶数N;/n2)根据步骤1)离散球傅里叶变换的展开系数

【技术特征摘要】
1.一种抗高频空间混叠的3D音频系统实现方法,其步骤包括:
1)对于给定的球麦克风阵列,对球面声压进行采样,并对采样的球面声压进行离散球傅里叶变换;其中离散球傅里叶变换的展开阶数不大于截断阶数N;
2)根据步骤1)离散球傅里叶变换的展开系数与球面声压展开的真实系数pnm之间的关系得到空间混叠矩阵E;
3)通过公式min(||s||1)、求解得到信号s;其中,YN是N阶的球傅立叶变换矩阵,B’N为根据球麦克风阵列的信号进行HOA编码得到的N阶HOA信号,ε是一设定值;
4)根据步骤3)得到的信号s,通过公式将s编码到高阶N,获得高阶的HOA信号BN;
5)将步骤4)得到的HOA信号乘以球傅立叶变换的逆矩阵,进行重建声场,得到3D音频。


2.如权利要求1所述的方法,其特征在于,球麦克风阵列采集的信号频率f满足其中,c是声速,r为球麦克风阵列的半径。


3.如权利要求1或2所述的方法,其特征在于,截断阶数N<(M+1)2,M是球麦克风阵列中球面麦克风的个数。


4.如权利要求1所述的方法,其特征在于,空间混叠矩阵E为的矩阵;其中的元素为球面声压的球傅立叶展开阶数,Q是球面麦克风的数量。

【专利技术属性】
技术研发人员:曲天书吴玺宏林晶
申请(专利权)人:北京大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1