基于自组织麦克风阵列的远场拾音语音识别方法及系统技术方案

技术编号：38834688 阅读：11 留言：0更新日期：2023-09-17 09:52

本发明专利技术涉及基于自组织麦克风阵列的远场拾音语音识别方法，属于语音识别技术领域。包括以下步骤：S1、建立一个点声源和一个包含M个麦克风的自组织麦克风阵列，通过自组织麦克风阵列收集语音信息；S2、对于不同通道的麦克风采集到的不同强度的语音信号，采用统一阈值大小的滤波器进行预处理；S3、采用自适应滤波与维纳滤波联合的改进型滤波方式进行滤波降噪和语音增强；S4、通过训练好的WeNet网络框架进行语音识别。本方案能提升远距离及复杂噪声背景下语音识别算法的识别准确率。景下语音识别算法的识别准确率。景下语音识别算法的识别准确率。

全部详细技术资料下载

【技术实现步骤摘要】
基于自组织麦克风阵列的远场拾音语音识别方法及系统

[0001]本专利技术属于语音识别
，涉及基于自组织麦克风阵列的远场拾音语音识别方法及系统。

技术介绍

[0002]语音识别技术在人机交互上扮演着重要的角色，任何因语音识别导致的语义错误都可能在人机交互系统中的各个模块上传播，并最终导致交互失败。
[0003]基于麦克风阵列的多通道语音识别是提高识别性能的重要途径。采用传统的麦克风阵列，当扬声器和麦克风阵列之间的距离增大时，语音质量显著下降，语音信号信噪比始终有所偏低，且无法仅通过增加麦克风数量来克服这一缺陷。因此如何基于远距离背景下提升语音识别算法准确率是亟待解决的问题。
[0004]为解决上述问题，现有技术提出采用自组织麦克风阵列来拾取远场语音信号，麦克风更加接近声源，采集到信噪比更高的语音信号。然后进行通道选择，去除掉含噪过高的通道信号，用干净的语音数据训练单通道ASR，然后用多通道带噪语音数据训练流注意力机制网络，解决了数据量庞大和严重噪声导致无法训练成功的问题。然而，上述方法在具有复杂噪声环境的实际应用中，识别的精度还有待提高。

技术实现思路

[0005]有鉴于此，本专利技术的目的在于提供基于自组织麦克风阵列的远场拾音语音识别方法及系统，在远距离及复杂噪声背景下提升语音识别算法的识别准确率。
[0006]为达到上述目的，本专利技术提供如下技术方案：
[0007]基于自组织麦克风阵列的远场拾音语音识别方法，包括以下步骤：
[0008]S1、建立一个点...

【技术保护点】

【技术特征摘要】
1.基于自组织麦克风阵列的远场拾音语音识别方法，其特征在于：包括以下步骤：S1、建立一个点声源和一个包含M个麦克风的自组织麦克风阵列，通过自组织麦克风阵列收集语音信息，被自组织麦克风阵列接收到的信号在经过同步模块以后的物理模型表示为：y(t，f)＝c(f)s(t，f)+n(t，f)＝x(t，f)+n(t，f)
ꢀꢀꢀꢀ
(1.1)其中，s(t,f)表示纯净语音在第t时刻和第f个频带的短时傅里叶变换值；c(f)是从声源到麦克风阵列的一个M维时不变空间传递函数；c(f)s(t,f)表示目标信号的直声；n(t,f)包含噪声、早期混响和晚期混响；S2、对于不同通道的麦克风采集到的不同强度的语音信号，进行预处理：其中，p＝[p1,p2,...,p
M
]
T
是通道选择滤波器，表示按元素相乘的数学操作；具体包括：S21、对各个通道语音信号的信噪比进行排序，将信噪比差值最大的两路信号中间值设为固定阈值；S22、判断各个通道语音信号的信噪比是否大于所述固定阈值；若所述信噪比大于所述固定阈值，则保留对应通道的语音信号；若所述信噪比小于所述固定阈值，则去除对应通道的语音信号；S23、对保留的信号赋予权重P
i
，计算得到合成信号；S3、采用自适应滤波与维纳滤波联合的改进型滤波方式进行滤波降噪和语音增强；S4、通过训练好的WeNet网络框架进行语音识别。2.根据权利要求1所述的基于自组织麦克风阵列的远场拾音语音识别方法，其特征在于：在所述S1中，所述预处理采用统一阈值大小的滤波器。3.根据权利要求1所述的基于自组织麦克风阵列的远场拾音语音识别方法，其特征在于：在所述S3中，滤波降噪和语音增强具体包括：S31、对所述合成信号进行自适应滤波；S32、，对自适应滤波后的信号进行分帧加窗，获得近似的平稳过程；S33、对各帧进行维纳滤波后重组，得到维纳滤波后的语音信号；S3...

【专利技术属性】
技术研发人员：叶婷，黄扬帆，黄啟洪，甘平，粟嘉伟，冯璐峰，
申请(专利权)人：重庆大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人