音频编码设备和方法技术

技术编号：26045531 阅读：95 留言：0更新日期：2020-10-23 21:26

提供了一种用于编码来自N个麦克风(2)的N个音频信号的方法和设备(3)，其中N≥3。估计所述N个音频信号中的每一对音频信号的直接声音的入射角。通过为每个估计的角分别导出一个A格式的直接声音信号，来为所述估计的多个入射角导出多个A格式的直接声音信号。每个A格式的直接声音信号为一阶虚拟麦克风信号，例如心形信号。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】音频编码设备和方法
本专利技术涉及音频录制和编码，尤其涉及虚拟现实应用，特别是小型便携式设备提供的虚拟现实应用。
技术介绍
虚拟现实(virtualreality，VR)声音录制通常需要是AmbisonicB格式并需要昂贵的指向性麦克风。专业音频麦克风既可以录制A格式并将其编码为AmbisonicB格式，也可以直接录制AmbisonicB格式，例如使用声场麦克风。一般情况下，VR的技术的难点在于在移动设备上部署全向麦克风来捕捉声音。在给定全向麦克风分布情况下，一种产生AmbisonicB格式的信号的方法是基于差分麦克风阵列，即，应用延迟和添加波束成形，以导出A格式的一阶虚拟麦克风(例如心形)信号。该技术的第一个限制是其空间混叠，该技术通过设计减小带宽，以使频率f在以下范围：其中c表示声速，dmic表示一对全向麦克风之间的距离。第二个缺点来自高阶AmbisonicB格式对麦克风的需求。所需的麦克风数量和它们的位置不再适合移动设备。另一种通过全向麦克风产生AmbisonicB格式的信号的方法是通过分布足够密集的麦克风，在空间中的录制点采样声场。然后将这些采样的声音信号转换成球谐波，并可以进行线性组合，最终产生B格式的信号。这些方法的主要限制是所需的麦克风数量较多。对于消费类应用，由于麦克风数量较少(一般最多6个)，线性处理太有限，导致低频出现信噪比(signaltonoiseratio，SNR)问题，高频出现混叠。方向性音频编码(DirectionalAudioCo...

【技术保护点】
1.一种音频编码设备(3)，其特征在于，所述音频编码设备(3)用于编码来自N个麦克风的N个音频信号，其中N≥3，所述音频编码设备(3)包括：/n延迟估计器(11)，所述延迟估计器(11)用于通过估计所述N个音频信号中的每一对音频信号的直接声音的入射角来估计直接声音的入射角；/n波束导出器(12)，所述波束导出器(12)用于通过为每个估计的入射角分别导出一个A格式的直接声音信号来为所述估计的多个入射角导出多个A格式的直接声音信号，每个A格式的直接声音信号是一阶虚拟麦克风信号。/n

【技术特征摘要】
【国外来华专利技术】1.一种音频编码设备(3)，其特征在于，所述音频编码设备(3)用于编码来自N个麦克风的N个音频信号，其中N≥3，所述音频编码设备(3)包括：
延迟估计器(11)，所述延迟估计器(11)用于通过估计所述N个音频信号中的每一对音频信号的直接声音的入射角来估计直接声音的入射角；
波束导出器(12)，所述波束导出器(12)用于通过为每个估计的入射角分别导出一个A格式的直接声音信号来为所述估计的多个入射角导出多个A格式的直接声音信号，每个A格式的直接声音信号是一阶虚拟麦克风信号。

2.根据权利要求1所述的音频编码设备，其特征在于，所述音频编码设备包括编码器(13)，所述编码器(13)用于通过对所述多个A格式的直接声音信号应用变换矩阵，将所述多个A格式的直接声音信号编码成一阶AmbisonicB格式的直接声音信号。

3.根据权利要求2所述的音频编码设备(3)，其特征在于，
N＝3，所述音频编码设备(3)包括短时傅里叶变换器(10a、10b、10c)，用于对N个音频信号x1、x2、x3中的每个音频信号进行短时傅里叶变换，以得到N个短时傅里叶变换音频信号X1[k，i]、X2[k，i]、X3[k，i]，
所述延迟估计器(11)用于：
根据以下公式确定短时傅里叶变换音频信号中的每一对音频信号的交叉频谱：

根据以下公式确定短时傅里叶变换音频信号中的每一对音频信号的复合交叉频谱的夹角：

对执行相位展开，以得到Ψ12、Ψ13、Ψ23，
根据以下公式估计以样点数量表示的延迟：
δ12[k，i]＝(NSTFT/2+1)/(iπ)ψ12[k，i]，
δ13[k，i]＝(NSTFT/2+1)/(iπ)ψ13[k，i]，
δ23[k，i]＝(NSTFT/2+1)/(iπ)ψ23[k，i]，i≤ialias
或
δ12[k，i]＝(NSTFT/2+1)/(iπ)Ψ12[k，i]，
δ13[k，i]＝(NSTFT/2+1)/(iπ)Ψ13[k，i]，
δ23[k，i]＝(NSTFT/2+1)/(iπ)Ψ23[k，i]，i＞ialias
根据以下公式估计以秒表示的延迟：

根据以下公式估计入射角：

其中
x1为所述N个音频信号中的第一音频信号，
x2为所述N个音频信号中的第二音频信号，
x3为所述N个音频信号中的第三音频信号，
X1为第一短时傅里叶变换后的音频信号，
X2为第二短时傅里叶变换后的音频信号，
X3为第三短时傅里叶变换后的音频信号，
k为所述短时傅里叶变换后的音频信号的帧，
i为所述短时傅里叶变换后的音频信号的频点，
X12为X1和X2对的交叉频谱，
X13为X1和X3对的交叉频谱，
X23为X2和X3对的交叉频谱，
αX为遗忘因子，
X*为X的共轭复数，
j为虚数单位，

为复合交叉频谱X12的夹角，

为复合交叉频谱X13的夹角，

为复合交叉频谱X23的夹角，
ialias为混叠频率对应的频点，
fs为采样频率，
dmic为麦克风(2、2a、2b、2c)的距离，
c为声速。

4.根据权利要求3所述的音频编码设备(3)，其特征在于，
所述波束导出器(12)用于：
根据以下公式确定心形方向性响应：

根据以下公式导出所述A格式的直接声音信号：
A12[k，i]＝D12[k，i]X1[k，i]，
A13[k，i]＝D13[k，i]X1[k，i]，
A23[k，i]＝D23[k，i]X1[k，i]，
其中
D为心形方向性响应，
A为A格式的直接声音信号。

5.根据权利要求4所述的音频编码设备(3)，其特征在于，
所述编码器(13)用于根据以下公式将所述A格式的直接声音信号编码为所述一阶AmbisonicB格式的直接声音信号：

其中
RW为第一零阶AmbisonicB格式的直接声音信号，
Rx为第一一阶AmbisonicB格式的直接声音信号，
Ry为第二一阶AmbisonicB格式的直接声音信号，
Γ-1为转换矩阵。

6.根据权利要求3至5中任一项所述的音频编码设备(3)，其特征在于，所述音频编码设备(3)包括：
波达方向估计器(20)，所述波达方向估计器(20)用于根据所述一阶AmbisonicB格式的直接声音信号估计波达方向；
高阶Amb...

【专利技术属性】
技术研发人员：穆罕默德·塔吉扎德，克里斯托弗·富勒，亚历克西斯·法夫罗，
申请(专利权)人：华为技术有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人