音频编码设备和方法技术

技术编号:26045531 阅读:95 留言:0更新日期:2020-10-23 21:26
提供了一种用于编码来自N个麦克风(2)的N个音频信号的方法和设备(3),其中N≥3。估计所述N个音频信号中的每一对音频信号的直接声音的入射角。通过为每个估计的角分别导出一个A格式的直接声音信号,来为所述估计的多个入射角导出多个A格式的直接声音信号。每个A格式的直接声音信号为一阶虚拟麦克风信号,例如心形信号。

【技术实现步骤摘要】
【国外来华专利技术】音频编码设备和方法
本专利技术涉及音频录制和编码,尤其涉及虚拟现实应用,特别是小型便携式设备提供的虚拟现实应用。
技术介绍
虚拟现实(virtualreality,VR)声音录制通常需要是AmbisonicB格式并需要昂贵的指向性麦克风。专业音频麦克风既可以录制A格式并将其编码为AmbisonicB格式,也可以直接录制AmbisonicB格式,例如使用声场麦克风。一般情况下,VR的技术的难点在于在移动设备上部署全向麦克风来捕捉声音。在给定全向麦克风分布情况下,一种产生AmbisonicB格式的信号的方法是基于差分麦克风阵列,即,应用延迟和添加波束成形,以导出A格式的一阶虚拟麦克风(例如心形)信号。该技术的第一个限制是其空间混叠,该技术通过设计减小带宽,以使频率f在以下范围:其中c表示声速,dmic表示一对全向麦克风之间的距离。第二个缺点来自高阶AmbisonicB格式对麦克风的需求。所需的麦克风数量和它们的位置不再适合移动设备。另一种通过全向麦克风产生AmbisonicB格式的信号的方法是通过分布足够密集的麦克风,在空间中的录制点采样声场。然后将这些采样的声音信号转换成球谐波,并可以进行线性组合,最终产生B格式的信号。这些方法的主要限制是所需的麦克风数量较多。对于消费类应用,由于麦克风数量较少(一般最多6个),线性处理太有限,导致低频出现信噪比(signaltonoiseratio,SNR)问题,高频出现混叠。方向性音频编码(DirectionalAudioCoding,DirAc)是空间声音表示的又一种方法,但它不产生B格式的信号。相反,该方法读取一阶B格式的信号,产生多个相关的音频参数(波达方向、扩散),并将所述音频参数添加到一个全向音频声道。之后,解码器获取上述信息,并将其转换为多声道音频信号,其中,通过幅度平移来获得直接声音,通过去相关来获得扩散声音。因此DirAc是一种不同的技术,该技术采用B格式作为输入并将其呈现为自己的音频格式。
技术实现思路
因此,需要提供一种允许产生AmbisonicB格式的声音信号,同时只需要较少数量的麦克风并实现高输出音质的音频编码设备和方法。该目标通过权利要求1中的所述装置的特征和权利要求14中的相关方法的特征来实现。该目标还通过权利要求15中的相关计算机程序来实现。从属权利要求可进一步扩展。根据本专利技术第一方面,提供了一种用于编码来自N个麦克风的N个音频信号的音频编码设备,其中N≥3。所述设备包括:延迟估计器,所述延迟估计器用于通过估计所述N个音频信号中的每一对音频信号的直接声音的入射角来估计直接声音的入射角;和波束导出器,所述波束导出器用于通过为每个估计的入射角分别导出一个A格式的直接声音信号,来为所述估计的多个入射角导出多个A格式的直接声音信号,每个A格式的直接声音信号是一阶虚拟麦克风信号,特别是心形信号。这样通过较少的硬件确定A格式的直接声音信号。根据第一方面的一种实现方式,所述设备还包括编码器,所述编码器用于通过对所述A格式的直接声音信号应用变换矩阵,将所述A格式的直接声音信号编码成一阶AmbisonicB格式的直接声音信号。这样通过非常少的数量的麦克风产生AmbisonicB格式的信号,但仍然可以实现高输出音质。根据第一方面的一种实现方式,N=3。所述音频编码设备还包括短时傅里叶变换器,用于对N个音频信号x1、x2、x3中的每个音频信号进行短时傅里叶变换,以得到N个短时傅里叶变换音频信号X1[k,i]、X2[k,i]、X3[k,i]。然后,所述延迟估计器用于根据以下公式确定短时傅里叶变换音频信号中的每一对音频信号的交叉频谱:根据以下公式确定短时傅里叶变换音频信号中的每一对音频信号的复合交叉频谱的夹角:对执行相位展开,得到Ψ12、Ψ13、Ψ23,根据以下公式估计以样点数量表示的延迟:δ12[k,i]=(NSTFT/2+1)/(iπ)ψ12[k,i],δ13[k,i]=(NSTFT/2+1)/(iπ)ψ13[k,i],δ23[k,i]=(NSTFT/2+1)/(iπ)ψ23[k,i],i≤ialias或δ12[k,i]=(NSTFT/2+1)/(iπ)Ψ12[k,i],δ13[k,i]=(NSTFT/2+1)/(iπ)Ψ13[k,i],δ23[k,i]=(NSTFT/2+1)/(iπ)Ψ23[k,i],i>ialias根据以下公式估计以秒表示的延迟:根据以下公式估计入射角:其中x1为所述N个音频信号中的第一音频信号,x2为所述N个音频信号中的第二音频信号,x3为所述N个音频信号中的第三音频信号,X1为第一短时傅里叶变换后的音频信号,X2为第二短时傅里叶变换后的音频信号,X3为第三短时傅里叶变换后的音频信号,k为所述短时傅里叶变换后的音频信号的帧,i为所述短时傅里叶变换后的音频信号的频点,X12为X1和X2对的交叉频谱,X13为X1和X3对的交叉频谱,X23为X2和X3对的交叉频谱,αX为遗忘因子,X*为X的共轭复数,i为虚数单位,为复合交叉频谱X12的夹角,为复合交叉频谱X13的夹角,为复合交叉频谱X23的夹角,ialias为混叠频率对应的频点,fs为采样频率,dmic为麦克风的距离,c为声速,简单高效地确定延迟。根据第一方面的另一实现方式,所述波束导出器用于根据以下公式确定心形方向性响应:根据以下公式导出所述A格式的直接声音信号:A12[k,i]=D12[k,i]X1[k,i],A13[k,i]=D13[k,i]X1[k,i],A23[k,i]=D23[k,i]X1[k,i],其中D为心形方向性响应,A为A格式的直接声音信号,简单高效地确定波束信号。根据第一方面的另一实现方式,所述编码器用于根据以下公式将所述A格式的直接声音信号编码为所述一阶AmbisonicB格式的直接声音信号:其中RW为第一零阶AmbisonicB格式的直接声音信号,Rx为第一一阶AmbisonicB格式的直接声音信号,Ry为第二一阶AmbisonicB格式的直接声音信号,Γ-1为转换矩阵,简单高效地确定波束信号。根据第一方面的另一实现方式,所述设备包括:波达方向估计器,所述波达方向估计器用于根据所述一阶AmbisonicB格式的直接声音信号估计波达方向;高阶Ambisonic编码器,所述高阶Ambisonic编码器用于使用所述一阶AmbisonicB格式的直接声音信号和本文档来自技高网
...

【技术保护点】
1.一种音频编码设备(3),其特征在于,所述音频编码设备(3)用于编码来自N个麦克风的N个音频信号,其中N≥3,所述音频编码设备(3)包括:/n延迟估计器(11),所述延迟估计器(11)用于通过估计所述N个音频信号中的每一对音频信号的直接声音的入射角来估计直接声音的入射角;/n波束导出器(12),所述波束导出器(12)用于通过为每个估计的入射角分别导出一个A格式的直接声音信号来为所述估计的多个入射角导出多个A格式的直接声音信号,每个A格式的直接声音信号是一阶虚拟麦克风信号。/n

【技术特征摘要】
【国外来华专利技术】1.一种音频编码设备(3),其特征在于,所述音频编码设备(3)用于编码来自N个麦克风的N个音频信号,其中N≥3,所述音频编码设备(3)包括:
延迟估计器(11),所述延迟估计器(11)用于通过估计所述N个音频信号中的每一对音频信号的直接声音的入射角来估计直接声音的入射角;
波束导出器(12),所述波束导出器(12)用于通过为每个估计的入射角分别导出一个A格式的直接声音信号来为所述估计的多个入射角导出多个A格式的直接声音信号,每个A格式的直接声音信号是一阶虚拟麦克风信号。


2.根据权利要求1所述的音频编码设备,其特征在于,所述音频编码设备包括编码器(13),所述编码器(13)用于通过对所述多个A格式的直接声音信号应用变换矩阵,将所述多个A格式的直接声音信号编码成一阶AmbisonicB格式的直接声音信号。


3.根据权利要求2所述的音频编码设备(3),其特征在于,
N=3,所述音频编码设备(3)包括短时傅里叶变换器(10a、10b、10c),用于对N个音频信号x1、x2、x3中的每个音频信号进行短时傅里叶变换,以得到N个短时傅里叶变换音频信号X1[k,i]、X2[k,i]、X3[k,i],
所述延迟估计器(11)用于:
根据以下公式确定短时傅里叶变换音频信号中的每一对音频信号的交叉频谱:









根据以下公式确定短时傅里叶变换音频信号中的每一对音频信号的复合交叉频谱的夹角:









对执行相位展开,以得到Ψ12、Ψ13、Ψ23,
根据以下公式估计以样点数量表示的延迟:
δ12[k,i]=(NSTFT/2+1)/(iπ)ψ12[k,i],
δ13[k,i]=(NSTFT/2+1)/(iπ)ψ13[k,i],
δ23[k,i]=(NSTFT/2+1)/(iπ)ψ23[k,i],i≤ialias

δ12[k,i]=(NSTFT/2+1)/(iπ)Ψ12[k,i],
δ13[k,i]=(NSTFT/2+1)/(iπ)Ψ13[k,i],
δ23[k,i]=(NSTFT/2+1)/(iπ)Ψ23[k,i],i>ialias
根据以下公式估计以秒表示的延迟:









根据以下公式估计入射角:









其中
x1为所述N个音频信号中的第一音频信号,
x2为所述N个音频信号中的第二音频信号,
x3为所述N个音频信号中的第三音频信号,
X1为第一短时傅里叶变换后的音频信号,
X2为第二短时傅里叶变换后的音频信号,
X3为第三短时傅里叶变换后的音频信号,
k为所述短时傅里叶变换后的音频信号的帧,
i为所述短时傅里叶变换后的音频信号的频点,
X12为X1和X2对的交叉频谱,
X13为X1和X3对的交叉频谱,
X23为X2和X3对的交叉频谱,
αX为遗忘因子,
X*为X的共轭复数,
j为虚数单位,

为复合交叉频谱X12的夹角,

为复合交叉频谱X13的夹角,

为复合交叉频谱X23的夹角,
ialias为混叠频率对应的频点,
fs为采样频率,
dmic为麦克风(2、2a、2b、2c)的距离,
c为声速。


4.根据权利要求3所述的音频编码设备(3),其特征在于,
所述波束导出器(12)用于:
根据以下公式确定心形方向性响应:









根据以下公式导出所述A格式的直接声音信号:
A12[k,i]=D12[k,i]X1[k,i],
A13[k,i]=D13[k,i]X1[k,i],
A23[k,i]=D23[k,i]X1[k,i],
其中
D为心形方向性响应,
A为A格式的直接声音信号。


5.根据权利要求4所述的音频编码设备(3),其特征在于,
所述编码器(13)用于根据以下公式将所述A格式的直接声音信号编码为所述一阶AmbisonicB格式的直接声音信号:



其中
RW为第一零阶AmbisonicB格式的直接声音信号,
Rx为第一一阶AmbisonicB格式的直接声音信号,
Ry为第二一阶AmbisonicB格式的直接声音信号,
Γ-1为转换矩阵。


6.根据权利要求3至5中任一项所述的音频编码设备(3),其特征在于,所述音频编码设备(3)包括:
波达方向估计器(20),所述波达方向估计器(20)用于根据所述一阶AmbisonicB格式的直接声音信号估计波达方向;
高阶Amb...

【专利技术属性】
技术研发人员:穆罕默德·塔吉扎德克里斯托弗·富勒亚历克西斯·法夫罗
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1