一种基于FPGA的麦克风阵列定向拾音方法技术

技术编号:36526094 阅读:8 留言:0更新日期:2023-02-01 16:05
本发明专利技术公开了一种基于FPGA的麦克风阵列定向拾音方法,属于声阵列信号采集和信号处理领域。本发明专利技术以FPGA作为主控的基于多变换域的宽带语音波束形成器,实施载体为48阵元(6*8)的矩形MEMS数字麦克风阵列,实现功能为室内和室外环境下实时、可靠、稳定的定向拾音和干扰抑制。在FPGA芯片主控的硬件电路上,48个麦克风阵元通过I2S接口解码并以48kHz和24bit的业内标准音频采样率和量化精度同步采集和传输,后续依次通过:空域自适应波束形成处理、频域改进的维纳后置滤波加权处理,最终本发明专利技术输出音频在增强目标声源的同时,能有效抑制空间中的多个非平稳的交叠干扰声源以及环境噪声。的多个非平稳的交叠干扰声源以及环境噪声。的多个非平稳的交叠干扰声源以及环境噪声。

【技术实现步骤摘要】
一种基于FPGA的麦克风阵列定向拾音方法


[0001]本专利技术涉及声阵列信号采集和信号处理领域,特别涉及一种基于FPGA的麦克风阵列定向拾音方法。

技术介绍

[0002]人耳能够在复杂的声学环境中,将注意力集中到某一个人身上并且忽略背景噪声和其他人的干扰,获取有用的信息,是一种“鸡尾酒会效应”,其本质是人类的一种听力选择能力。之所以具有这种能力,主要是因为人体的双耳结构形成的指向性。同理,机器的“耳朵”,亦即麦克风也必须使得接收样本能包含指向性的方向信息。所谓“定向拾音”,其最直观的效果就是通过空域波束形成算法,获取当前空间中感兴趣方向输入的声学信息,并且屏蔽其它方向的干扰声学信号以及抑制存在于整个空间中的环境本底噪声,本质上属于多通道语音增强技术范畴,故而其实施载体必然是声阵列系统。
[0003]声阵列信号处理的技术难点在于:
[0004]1、受待处理信号的物理特性限制:接收信号是声波信号,作为宽带语音信号,典型频带处于300~3400Hz,接收阵列对此类信号源形成非相干阵,各阵元接收信号并非只是相位上的差异,不能直接加权相加;作为非平稳随机信号,需要做预处理,如抗混叠滤波、预加重、加窗、分帧以保证接收信号的短时平稳,从而获得更低失真更高音质的数字信号。另外,接收信号通常是机械纵波,由于波的反射、衍射,麦克风收到的信号除了直达信号以外,还有多径信号的叠加和干涉,产生声学混响;在室内环境中,受房间边界或者障碍物衍射和反射导致声信号传播到每个阵元的幅度和相位发生了未知的变化。
[0005]2、信号处理的实现目标和计算资源不匹配:定向拾音的目标是从任意复杂的声学环境中提取出感兴趣目标方向上的音频信息。这种技术要求信号处理算法必须满足以下条件,即实时稳定、拾音距离远、非平稳语音交叠干扰抑制、环境基底噪声抑制、不同声学环境下的适应性强。在此要求下,传统的外部采集卡+DSP/GPU处理平台便无法胜任,体现在硬件连接复杂、开销高、基于指令的算法设计逻辑复杂困难。
[0006]以为例,其开发的提供软硬一体化的语音前端拾音解决方案,包括麦克风阵列的算法、模组以及麦克风阵列,旨在利用麦克风阵列的空域滤波特性,形成定向拾音波束,并对波束以外的噪声进行抑制,以保证较高的录音质量。该厂家产品官网(http://www.soundiot.cn/?pages_4/)提供的演示部分的效果如图1所示,可见其缺点主要集中在三个方面

提供音频录制,但不具备实时播放能力;

拾音距离短,为5m以内;

不支持非平稳的语音干扰影响的抑制。

技术实现思路

[0007]针对上述问题或不足,为解决基于声阵列波束形成技术实现的定向拾音效果存在阵元数目少、拾音距离短、抑制非平稳干扰性能有限、增加大量阵元导致运算量大、硬件成本高等问题,本专利技术提供了一种基于FPGA的麦克风阵列定向拾音方法,以FPGA作为主控、基
于多变换域的宽带语音波束形成器,输出音频满足实时性的要求,在增强目标声源的同时,能有效抑制干扰声源以及环境噪声,系统整体兼具拾音距离远、拾音信噪比及算法实时性高等优势和特点。
[0008]本专利技术的技术方案为:
[0009]一种基于FPGA的麦克风阵列定向拾音方法,具体步骤如下:
[0010]步骤1、FPGA接收上位机发送来的不同声源的位置信息,这些位置信息包含1个目标声源以及J个(J≥2)干扰声源的方位角和俯仰角信息;
[0011]FPGA同步采集48阵元的麦克风阵列的输出字并通过I2S解码得到的48kHz、24bit、48通道(48

CH)并行脉冲编码调制(PCM)数字流;
[0012]FPGA分别基于上述的J+1(1个目标,J个干扰)个声源的位置信息(即方位角

俯仰角组),对48

CH的PCM数字流进行自适应波束形成计算;
[0013]FPGA输出48kHz、24bit、(J+1)

CH PCM数字流,这J+1路信号分别在空间上对齐了各个声源信号的方位角

俯仰角组。
[0014]步骤2、对于步骤1输出的48kHz、24bit、(J+1)

CH数字PCM流进行系统信号干扰比提升处理。
[0015]FPGA将步骤1得到的J+1路分别对齐1个目标和J个干扰方向的方位角

俯仰角组,以24k点数的矩形窗进行加窗的短时傅里叶变换,并分别计算互功率谱;
[0016]对传统最小均方误差(MMSE)准则下的带维纳后置滤波的最优权值进行改进,所述改进包含两处,添加一个可变向量α以改善加权效果,干扰信号拓展至J个;将改进后的权值与目标方向的频域加权,最后将加权结果逆变换至时域单通道去非平稳干扰信号;
[0017]最终输出48kHz、24bit、1

CH数字PCM流,为经过频域加权的单路目标方向输出信号S(n)直接输出至声卡并发声于外接耳机。
[0018]所述步骤1具体如下:
[0019]步骤1.1、上位机发送给FPGA的位置信息包括空域滤波的1个目标位置(θ
s
,)和J个干扰位置(θ
uj
,),j=1,2,...J,其中(θ,)表示方位角

俯仰角组、下角标s表示目标、uj表示第j个干扰;
[0020]步骤1.2、根据步骤1.1的方位角和俯仰角信息,将

80
°
到80
°
映射为整数量化的

4到4作为抽头延迟线的长度,采用映射于不同角度信息的长度的抽头延迟线进行固定权值延时(fixed steering);在空域上先执行6行横向排列的麦克风的自适应滤波求和,得到6路分别对齐1个目标和J个干扰方向方位角θ的合计6*(J+1)

CH信号,再在纵向方向上执行6路的自适应滤波求和,得到对齐1个目标和J个干扰方向俯仰角的(J+1)

CH信号;
[0021]自适应波束形成(多通道自适应滤波求和)的公式表示为其中y(n)表示多通道滤波求和的输出信号,x
i
(n)表示第i个麦克风的接收信号,n表示时域上的采样点,h=

4,

3...,0,...3,4,M指当前用于滤波求和使用的麦克风阵元数量,在执行横向麦克风自适应滤波求和时为8,在执行纵向麦克风自适应滤波求和时为6,L指滤波器的抽头数,w
i
(l)指的是滤波器的抽头系数(权向量),该权向量系数将基于线性约束最小方差(LCMV)原则进行自适应的更新,更新公式为:
其中μ=0.0001表示学习步长。
[0022]步骤1.3、横向对齐方位角的自适应波束形成需要消耗(L

1)*(J+1)*6*8个延时单元、(L

本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于FPGA的麦克风阵列定向拾音方法,其特征在于,包括以下步骤:步骤1、FPGA接收上位机发送来的不同声源的位置信息,这些位置信息包含1个目标声源以及J个(J≥2)干扰声源的方位角和俯仰角信息;FPGA同步采集48阵元的麦克风阵列的输出字并通过I2S解码得到的48kHz、24bit、48

CH并行脉冲编码调制数字流;FPGA分别基于上述的J+1个声源的位置信息(即方位角

俯仰角组),对48CH的PCM数字流进行自适应波束形成计算;最终FPGA输出48kHz、24bit、(J+1)

CH PCM数字流,这J+1路信号分别在空间上对齐了各个声源信号的方位角

俯仰角组;步骤2、对于步骤1输出的48kHz、24bit、(J+1)

CH数字PCM流进行系统信号干扰比提升处理;FPGA将步骤1得到的J+1路分别对齐1个目标和J个干扰方向的方位角

俯仰角组,以24k点数的矩形窗进行加窗的短时傅里叶变换,并分别计算互功率谱;对传统最小均方误差准则下的带维纳后置滤波的最优权值进行改进,所述改进包含两处,添加一个可变向量α以改善加权效果,干扰信号拓展至J个;将改进后的权值与目标方向的频域加权,最后将加权结果逆变换至时域单通道去非平稳干扰信号;最终输出48kHz、24bit、1

CH数字PCM流,为经过频域加权的单路目标方向输出信号S(n)直接输出至声卡并发声于外接耳机。2.如权利要求1所述基于FPGA的麦克风阵列定向拾音方法,其特征在于,所述步骤1具体如下:步骤1.1、上位机发送给FPGA的位置信息包括空域滤波的1个目标位置和J个干扰位置其中表示方位角

俯仰角组、下角标s表示目标、uj表示第j个干扰;步骤1.2、根据步骤1.1的方位角和俯仰角信息,将

80
°
到80
°
映射为整数量化的

4到4作为抽头延迟线的长度,采用映射于不同角度信息的长度的抽头延迟线进行固定权值延时;在空域上先执行6行横向排列的麦克风的自适应滤波求和,得到6路分别对齐1个目标和J个干扰方向方位角θ的合计6*(J+1)

CH信号,再在纵向方向上执行6路的自适应滤波求和,得到对齐1个目标和J个干扰方向俯仰角的(J+1)

CH信号;自适应波束形成又称为多通道自适应滤波求和,其公式表示为其中y(n)表示多通道滤波求和的输出信号,x
i
(n)表示第i个麦克风的接收信号,n表示时域上的采样点,h=

4,

3...,0,...3,4,M指当前用于滤波求和使用的麦克风阵元数量,在执行横向麦克风自适应滤波求和时为8,在执行纵向麦克风自适应滤波求和时为6,L指滤波器的抽头数,w
i
(l)指的是滤波器的抽头系数(权向量),该权向量系数将基于线性约束最小方差原则进行自适应的更新,更新公式为:其中μ=0.0001表示学习步长;步骤1.3、横向对齐方位角的自适应波束形成需要消耗(L

1)*(J+1)*6*8个延时单元、
(L

1)*(J+1)*6*8个加法器和L*(J+1)*6*8个乘...

【专利技术属性】
技术研发人员:吴宇向伟铭刘钰周毅炜
申请(专利权)人:电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1