基于深度学习的麦克风阵列声源定位方法及声源识别方法技术

技术编号:30406957 阅读:23 留言:0更新日期:2021-10-20 11:14
基于深度学习的麦克风阵列声源定位方法及声源识别方法,包括如下步骤:设置麦克风阵列,所述麦克风阵列包括两个以上的麦克风,且全部麦克风位于同一平面;对麦克风进行两两分组,利用每一组麦克风进行声源位置定位,具体为:以两个麦克风连线为X轴,连线中点为坐标原点构建三维坐标系;计算声源相对坐标原点的方位角θ;确认声源角度后,再得到声源位置信息。本发明专利技术通过利用语音到达麦阵中各个不同位置麦克风的时延相关性获取声源位置,然后结合深度神经网络对语音进行增强,在本地实现了快速确定声源为人声还是非人声,减少语音产品中的误识别和误触发。误识别和误触发。误识别和误触发。

【技术实现步骤摘要】
基于深度学习的麦克风阵列声源定位方法及声源识别方法


[0001]本专利技术属于人工智能
,涉及语音识别中的声源定位,具体涉及一种基于深度学习的麦克风阵列声源定位方法及声源识别方法。

技术介绍

[0002]近年来,随着物联网技术的突飞猛进,语音成为人机交互的一种自然、便捷的手段,但麦克风采集到的语音总是掺杂着不同的随机性噪声,如传输媒介、周围环境、人声干扰等外部噪声,接收到的语音质量受到不同程度的影响,从而导致语音识别效果变差,使用户的体验感差。目前市面上的语音产品根据采音麦克的数量分为单麦和多麦(双麦、四麦及八麦等),根据麦克风的排列方式分为矩形阵列和圆形阵列。单麦价格低、全方位拾音,安静下识别效果比较理想,但抗噪声能力差,在噪音条件下识别效果下降明显,虽然在特定的应用场景,如烟机、洗衣机等噪声下可通带噪语音与标准语音的映射来训练提高识别率,但各种噪音条件下的语音需要单独采集及训练,效率相对较低。
[0003]而麦克风阵列即麦阵不仅可以有效抑制噪声和混响的干扰,获得良好的音质,还可以得到声场的时空结构,在听觉场分析中可以解决或改善众多原本棘手的问题,例如音频去噪抗混响、语音增强以及说话人定位与跟踪。在音视频会议系统中,往往通过实时获取说话人的位置信息来控制摄像头自动对准该说话人,并利用波束成形等阵列信号处理手段对该方向的音频信号进行增强。在其他一些对音频信号质量有比较高要求的应用场景中,例如语音识别系统、车载电话系统、助听器设备等,也常常应用麦克风阵列得到的音频空间信息来放大说话人方向捕捉的音频信号,同时衰减其他方向的信号,进而提高音频质量;麦克风阵列在定位及跟踪精度具有较强的优势,且具有更强的稳健性。

技术实现思路

[0004]为克服现有技术存在的缺陷,本专利技术公开了一种基于深度学习的麦克风阵列声源定位方法及声源识别方法。
[0005]本专利技术所述基于深度学习的麦克风阵列声源定位方法,包括如下步骤:S1. 设置麦克风阵列,所述麦克风阵列包括三个以上的麦克风;S2. 对麦克风进行两两分组,利用每一组麦克风进行声源位置定位,具体为:S21. 以两个麦克风连线为X轴,连线中点为坐标原点构建三维坐标系;利用下式计算声源相对坐标原点的方位角θ;其中c为声速,m
i1 、m
i2
表示两个麦克风在坐标系中的位置,τ
i
为两个麦克风接收到声音信号的延时差;S22. 对两个麦克风,求得麦克风接收到的频域信号X
i
(k,l);其中,下标i表示不同的麦克风,k表示第k个频点,l表示第l帧语音信号;
S3. 遍历各组麦克风求得各组麦克风对应的方位角θ和频域信号后,再进行以下处理:将空间全方位角[

180
°
, 180
°
]均分为Q等份,定义每一个空间角索引i = 1,2,...,Q;则第i个空间角的波束S(i)为:(4)其中:为第k个频点的相位角,Fs为频域信号的采样率,τi为延时差,θ为空间划分的方位角,c为声音传播速度,*表示取复共轭,X
m1
(k,l)、X
m2
(k,l)分别表示同一组内两个麦克风的频域信号,M为麦克风阵列的麦克风数量,K表示频域信号的频点总数,j表示虚部,exp表示求自然对数;遍历空间全部空间角,得到空间波束向量S
eng
:选取空间波束向量中峰值最大的位置所对应的空间角即为所求声源方向。
[0006]本专利技术还公开了一种声源识别方法,包括如下步骤:S11. 设置包括2个以上麦克风的麦克风阵列,放置在能接收到声源音频信息的位置;S12. 麦克风阵列的各个麦克风收到语音后,根据麦克风阵列声源定位方法,获取到声源在空间的方位角,进而得到声源的位置;S13. 根据步骤S12得到的声源位置对该声源位置发出的目标音频信号进行增强,其他位置发出的非目标音频信号进行抑制;对音频信号提取特征信息后输入神经网络进行运算,对运算结果解码后得到语音内容。
[0007]具体的:所述神经网络为深度神经网络、卷积神经网络、循环神经网络中任意一种。
[0008]本专利技术通过利用语音到达麦阵中各个不同位置麦克风的时延相关性获取声源位置,然后结合深度神经网络对语音进行增强,在本地实现了快速确定声源为人声还是非人声,减少语音产品中的误识别和误触发。
附图说明
[0009]图1是本专利技术中根据麦克风阵列构建坐标系的一个具体实施方式示意图;图2是本专利技术所述麦克风阵列的一个具体实施方式示意图;图3是利用本专利技术进行语音模型训练及识别的一个典型流程示意图。
具体实施方式
[0010]下面对本专利技术的具体实施方式作进一步的详细说明。
[0011]将多个麦克风等间距的均匀分布在半径为r的二维圆周上,如图2所示。麦克风与搭载有语音本地识别芯片,如申请人自主研发的CI1103芯片的语音测试模组相连。
[0012]本专利技术主要应用于非贴近的较远声源位置识别,例如声源距离麦克风阵列中任意一个麦克风的直线距离均大于3米,进行声源位置识别时,将每两个麦克风分成一组,分组为任意分组,例如八个麦克风,可能有28个分组。
[0013]对以同组的两个麦克风中点作为原点,两个麦克风所在直线为X轴构建坐标系,如图1所示,利用下式计算出声源方向,声源与原点连线与X轴夹角其中声速为 c,麦克风M1和M2之间接收到声源发出的音频信号的延时差为τ
i
;构建图1所示的三维坐标系,M1和M2分别表示两个麦克风,双麦阵M1和M2对应的空间矢量分别为n1和n2,M1和M2连线中点为坐标原点,M1和M2的连线定义为x轴,声源S的空间矢量为r
s
,声源在三维坐标系中的球形坐标为( r,θ,ф,),可得以下矢量方程:||r
s

n1||
ꢀ‑ꢀ
||r
s

n2|| = τ
i c
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1) 上式符合双曲线性质,根据双曲线的性质可得,因为声源 S到M1和M2麦克风之间的距离差为固定不变的,所以声源必定位于以M1和M2 位置为焦点的双曲面上。
[0014]根据双曲面性质,直角坐标系下声源和麦克风的位置由(2)式表示,其中r
s
为声源S空间矢量;(2)其中r 是指声源与坐标原点之间的距离,r
s
为声源S空间矢量;m
i1 、m
i2
表示两个麦克风在坐标系中的位置,位置可用空间矢量表示,即m
i1
=n1, m
i2
=n2。
[0015]将声源和两个麦克风的空间矢量带入到式(1)中,并把方程的两边平方可得(3)r 是指声源与坐标原点之间的距离,(3)式的几何意义为,当声源距离焦点较远时,等号右边趋于零,此时可以近似的看作声源位于以麦克风M1和M2中点为锥点的圆锥面上,通过延时差τ
i
,可近似求得声本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于深度学习的麦克风阵列声源定位方法,其特征在于:包括如下步骤:S1. 设置麦克风阵列,所述麦克风阵列包括三个以上的麦克风;S2. 对麦克风进行两两分组,利用每一组麦克风进行声源位置定位,具体为:S21. 以两个麦克风连线为X轴,连线中点为坐标原点构建三维坐标系;利用下式计算声源相对坐标原点的方位角θ;其中c为声速,m
i1 、m
i2
表示两个麦克风在坐标系中的位置,τ
i
为两个麦克风接收到声音信号的延时差;S22. 对两个麦克风,求得麦克风接收到的频域信号X
i
(k,l);其中,下标i表示不同的麦克风,k表示第k个频点,l表示第l帧语音信号;S3. 遍历各组麦克风求得各组麦克风对应的方位角θ和频域信号后,再进行以下处理:将空间全方位角[

180
°
, 180
°
]均分为Q等份,定义每一个空间角索引i = 1,2,...,Q;则第i个空间角的波束S(i)为:(4)其中:为第k个频点的相位角,Fs为频域信号的采...

【专利技术属性】
技术研发人员:陈思应
申请(专利权)人:成都启英泰伦科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1