基于十字形声阵列宽带波束形成的声识别方法技术

技术编号：13831902 阅读：78 留言：0更新日期：2016-10-14 10:55

本发明专利技术公开了一种基于十字形声阵列宽带波束形成的声识别方法。本发明专利技术包括如下步骤：1、将十字形声阵列对准所需方向采集声音信号；2、对采集到声音信号进行预处理；3、对预处理后的每一帧数据进行离散傅里叶变换，然后根据需要的频带进行频带提取；4、提取的各频带分别在所需方向上进行LSMI‑MVDR波束形成。5、将波束形成后的频域信号进行逆离散傅里叶变换；6、对应分帧时的原则进行帧重叠合成，输出信号；7、对输出信号进行特征提取和分类学习、识别。本发明专利技术能够提高期望方向接收信号的信噪比并且抑制其他方向的干扰信号，将其用于声音识别系统的信号处理阶段，能够有效的提高识别系统对识别对象的识别率和可靠性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于信号处理
，尤其涉及一种基于十字形声阵列宽带波束形成的声识别方法。
技术介绍
传统的单传声器声识别系统中，存在以下几个问题：1.声识别系统只需要对某一个方向的信号进行识别，然而由于单个传声器的全向性，当识别对象并不在该方向附近时，识别系统依然会被触发，从而造成了误警。2.在真实的复杂环境中，识别对象附近存在多种干扰声源以及严重的背景噪声，这就会造成系统的整体识别率急剧下降，误警率、漏警率会急剧上升。3.在实际应用中，为了提高识别系统的作用区域的极限距离，就会使用高灵敏度的传声器，然而高灵敏的传声器势必会导致背景噪声的增强，从而造成对远距离的识别率并不会有着明显的增高，反而会下降。
技术实现思路
针对以上问题，本专利技术提供了一种基于十字形声阵列宽带波束形成的声识别方法。为了实现上述目的，本专利技术采用的技术方案包括如下步骤：步骤1、将十字形声阵列对准所需方向采集4通道声音信号；步骤2、对采集到的4通道声音信号进行预处理，包括分帧、加窗；步骤3、对预处理后的每一帧数据进行离散傅里叶变换，离散傅里叶变换后的4通道声音信号根据需要的频带进行频带提取；步骤4、提取的各频带分别在所需方向上进行LSMI-MVDR波束形成；步骤5、将波束形成后的频域信号进行逆离散傅里叶变换；步骤6、对应分帧时的原则进行帧重叠合成，输出信号；步骤7、对输出信号进行特征提取和分类学习、识别。所述的步骤1：将十字形声阵列的其中一个通道对准声源方向，作为LSMI-MVDR宽带波束形成的方向，采集4通道声音信号，采样频率记为fs。所述的步骤2：预处理包括数据的分帧、加窗，对声音...

【技术保护点】
基于十字形声阵列宽带波束形成的声识别方法,其特征在于包括如下步骤：步骤1、将十字形声阵列对准所需方向采集4通道声音信号；步骤2、对采集到的4通道声音信号进行预处理，包括分帧、加窗；步骤3、对预处理后的每一帧数据进行离散傅里叶变换，离散傅里叶变换后的4通道声音信号根据需要的频带进行频带提取；步骤4、提取的各频带分别在所需方向上进行LSMI‑MVDR波束形成；步骤5、将波束形成后的频域信号进行逆离散傅里叶变换；步骤6、对应分帧时的原则进行帧重叠合成，输出信号；步骤7、对输出信号进行特征提取和分类学习、识别；所述的步骤1：将十字形声阵列的其中一个通道对准声源方向，作为LSMI‑MVDR宽带波束形成的方向，采集4通道声音信号，采样频率记为fs；所述的步骤2：预处理包括数据的分帧、加窗，对声音信号进行分帧，声音信号每帧选取1024个采样点，帧移为512个采样点；然后采用汉明窗对声音信号进行加窗；所述的步骤3：通过FFT来实现信号的离散傅里叶变换，其中，每一帧信号经过FFT后频率分辨率为第p个通道的第m帧信号经过FFT后的结果为：Xp(m)(k)=Σi=0L-1xp(m)(i)exp(...

【技术特征摘要】
1.基于十字形声阵列宽带波束形成的声识别方法,其特征在于包括如下步骤：步骤1、将十字形声阵列对准所需方向采集4通道声音信号；步骤2、对采集到的4通道声音信号进行预处理，包括分帧、加窗；步骤3、对预处理后的每一帧数据进行离散傅里叶变换，离散傅里叶变换后的4通道声音信号根据需要的频带进行频带提取；步骤4、提取的各频带分别在所需方向上进行LSMI-MVDR波束形成；步骤5、将波束形成后的频域信号进行逆离散傅里叶变换；步骤6、对应分帧时的原则进行帧重叠合成，输出信号；步骤7、对输出信号进行特征提取和分类学习、识别；所述的步骤1：将十字形声阵列的其中一个通道对准声源方向，作为LSMI-MVDR宽带波束形成的方向，采集4通道声音信号，采样频率记为fs；所述的步骤2：预处理包括数据的分帧、加窗，对声音信号进行分帧，声音信号每帧选取1024个采样点，帧移为512个采样点；然后采用汉明窗对声音信号进行加窗；所述的步骤3：通过FFT来实现信号的离散傅里叶变换，其中，每一帧信号经过FFT后频率分辨率为第p个通道的第m帧信号经过FFT后的结果为： X p ( m ) ( k ) = Σ i = 0 L - 1 x p ( m ) ( i ) exp ( - j 2 π i k L ) , k = 0 , 1 , ... , L - 1 ]]>其中，L＝1024为每一帧的长度，为第p个通道第m帧的信号，k为是各个频带的编号，其对应的中心频率为： f k = f s L × k ]]>然后，根据声音信号的频率特性，选取相应的频率带，比如信号所在的频率带为[f1，f2]，则我们提取FFT后的k所在的区间为2.根据权利要求1所述的基于十字形声阵列宽带波束形成的声识别方法,其特征在于所述的步骤4：设第k个频带的中心频率为fk，则对于十字形阵列，首先将十字形阵列建立在直角坐标系下，则十字形阵列接收到的第m帧信号在时域内表示为： x ( m ) ( t ) = x 1 ( m ) ( t ) x 2 ( m ) ( t ) x 3 ( m ) ( t ) x 4 ( m ) ( t ) = a ( θ ) S ( t ) + n ( t ) = e - jωτ 1 ( θ ) e - jωτ 2 ( θ ) e - jωτ 3 ( θ ) e - jωτ 4 ( θ ) S ( t ) + n 1 ( t ) n 2 ( t ) n 3 ( t ) n 4 ( t ) - - - ( 1 ) ]]>其中，S(t)为声源信号，它的方位角为θ；为方向矢量；是噪声向量；ω为S(t)的中心角频率，τp(θ)(p＝1，2，3，4)是第p个阵元相对于参考点即坐标原点的延时，对于十字形声阵列，其值为： τ ( θ ) = τ 1 ( θ ) τ 2 ( θ ) τ 3 ( θ ) τ 4 ( θ ) = - r cos θ c - r sin θ c r cos θ c r sin θ c ]]>c是声音在空气中的传播速度，r是十字形声阵列的半径；将(1)式进行离散傅里叶变换得到在频域下表示方式为 X ( m ) ( k ) = X 1 ( m ) ( k ) X 2 ( m ) ( k ) X 3 ( m ) ( k ) X 4 ( m ) ( k ) = a ( θ , f k ) S ( k ) + n ( k ) ...

【专利技术属性】
技术研发人员：王天磊，王建中，曹九稳，赖晓平，
申请(专利权)人：杭州电子科技大学，
类型：发明
国别省市：浙江;33

全部详细技术资料下载我是这个专利的主人