一种增强噪声鲁棒性的语音识别方法和系统技术方案

技术编号:38907172 阅读:33 留言:0更新日期:2023-09-22 14:25
本发明专利技术涉及语音信号处理技术领域,具体公开了一种增强噪声鲁棒性的语音识别方法和系统,包括获取噪声数据和具有文本标注的干净语音数据,基于干净语音数据和噪声数据生成加噪语音数据;对干净语音数据和加噪语音数据进行预处理提取干净语音数据和加噪语音数据的梅尔频谱;构建自动语音识别模型,将干净语音数据和加噪语音数据的梅尔频谱输入自动语音识别模型中,获得干净语音数据的识别结果和加噪语音数据的识别结果;基于文本、干净语音数据和加噪语音数据的识别结果训练自动语音识别模型,以获得训练好的自动语音识别模型;基于训练好的自动语音识别模型对含噪语音数据进行识别;该方法提升了自动语音识别模型的噪声鲁棒性。鲁棒性。鲁棒性。

【技术实现步骤摘要】
一种增强噪声鲁棒性的语音识别方法和系统


[0001]本专利技术涉及语音信号处理
,具体涉及一种增强噪声鲁棒性的语音识别方法和系统。

技术介绍

[0002]自动语音识别是将音频信息转录成文字信息的一种技术;随着深度学习的发展,端到端自动语音识别在日常生活中的应用场景越来越多,已经渗透到人们生活的方方面面,在手机语音助手、车载语音导航和智能机器人等方面已有广泛的应用;目前,在干净语音下的识别效果已经特别好,甚至已经超越了人耳的准确率。
[0003]然而,生活中到处充满着噪声,在实际使用中,端到端自动语音识别通常会受到背景噪声的影响,这种影响会严重降低端到端语音识别模型的识别效果,特别在低信噪比时,甚至会使模型完全不能使用,这对于端到端自动语音识别模型在现实生活中的推广与应用仍是一个特别大的挑战;目前主流的解决方法是利用数据增强技术,数据增强技术是指在传统编解码模型的基础上,在编码阶段之前引入一个数据增强模块;数据增强技术包括传统的统计方法,如维纳滤波器和基于DNN的语音增强方法,如时频掩码,信号近似和谱映射;数据增强技术通过不同的信噪比(SNR)值的噪声类型对原始干净语音数据进行增强和扩充,并作为输入传入到端到端模型中;通过对加噪语音数据特征进行增强,目的是使得加噪语音数据得到的特征与其对应的干净语音数据一致,训练模型提取噪声不变性特征的能力;与较高层相比,端到端模型的较低层进行了较大的梯度更新。
[0004]然而,语音增强部分通常与识别部分不同,因此增强方法无法向最终目标优化,从而导致了次优解;而且提取噪声不变性特征的方法,在遇到低信噪比的语音数据时,由于说话信息被噪声信息严重干扰,即使经过大量训练,提取器也难以提取到相同的特征,反而会使得噪声不变性约束成为一种负担,进而导致低信噪比语音的识别鲁棒性急剧下降,同时还会影响到高信噪比语音的识别结果。

技术实现思路

[0005]针对上述问题,本专利技术的一个目的是提供一种增强噪声鲁棒性的语音识别方法,该方法提出了噪声特征修复网络层(NFRN层),用以改善低信噪比时自动语音识别模型识别性能严重下降的问题,以提升自动语音识别模型的噪声鲁棒性。
[0006]本专利技术的第二个目的是提供一种增强噪声鲁棒性的语音识别系统。
[0007]本专利技术所采用的第一个技术方案是:一种增强噪声鲁棒性的语音识别方法,包括以下步骤:S100:获取噪声数据和具有文本标注的干净语音数据,基于所述干净语音数据和噪声数据生成加噪语音数据;对所述干净语音数据和加噪语音数据进行预处理以分别提取干净语音数据和加噪语音数据的梅尔频谱;S200:构建自动语音识别模型,所述自动语音识别模型包括噪声特征修复网络层、
编码层和解码层,所述噪声特征修复网络层包括依次连接的三层卷积操作、三层逆向卷积操作和一个Sigmoid激活函数,每层卷积操作和每层逆向卷积操作后面都连接一个批归一化操作和RELU激活函数;S300:分别将干净语音数据和加噪语音数据的梅尔频谱输入所述自动语音识别模型中,获得干净语音数据的识别结果和加噪语音数据的识别结果,并基于所述文本、干净语音数据的识别结果和加噪语音数据的识别结果训练所述自动语音识别模型,以获得训练好的自动语音识别模型;S400:基于所述训练好的自动语音识别模型对含噪语音数据进行识别。
[0008]优选地,所述步骤S100中的预处理包括:分别对干净语音数据和加噪语音数据进行重采样;将重采样后的干净语音数据和加噪语音数据进行预加重处理;然后通过短时傅立叶变换算法进行处理;最后进行梅尔频谱的转换,获得对应的干净语音数据的梅尔频谱和加噪语音数据的梅尔频谱。
[0009]优选地,所述步骤S300包括以下子步骤:S301:分别将干净语音数据和加噪语音数据的梅尔频谱输入噪声特征修复网络层,以获得干净语音数据的噪声特征修复权重和加噪语音数据的噪声特征修复权重;以及将干净语音数据的梅尔频谱乘以与其对应的噪声特征修复权重,将加噪语音数据的梅尔频谱乘以与其对应的噪声特征修复权重,从而分别得到干净语音数据和加噪语音数据修复后的语音特征;S302:分别将所述干净语音数据和加噪语音数据修复后的语音特征输入编码层,以获得干净语音数据和加噪语音数据的编码结果;S303:分别将所述干净语音数据和加噪语音数据的编码结果输入解码层,从而得到干净语音数据的识别结果和加噪语音数据的识别结果。
[0010]优选地,所述自动语音识别模型中的编码层是由6层Conformer

Des组成;所述Conformer

Des包括稠密连接卷积模块。
[0011]优选地,所述Conformer

Des包括层归一化模块、两个稠密连接卷积模块、卷积模块和多头自注意力模块,其中,两个稠密连接卷积模块都乘以1/2,稠密连接卷积模块与多头自注意力模块连接,多头自注意力模块后依次连接卷积模块、稠密连接卷积模块、层归一化模块。
[0012]优选地,所述稠密连接卷积模块包括依次连接的层归一化、第一稠密连接卷积层、Swish激活函数、第一丢弃函数、第二稠密连接卷积层和第二丢弃函数。
[0013]优选地,所述自动语音识别模型中的解码层是由6层Transformer组成;所述Transformer结构包含多组解码器,解码器的每一层包含四个操作模块,分别是自注意力模块、层归一化模块、编解码注意力机制和前馈神经网络。
[0014]优选地,所述步骤S300中包括:基于所述文本和所述干净语音数据的识别结果计算交叉熵损失,以及基于所述干净语音数据的识别结果和加噪语音数据的识别结果计算交叉熵损失;基于交叉熵损失进行训练直至收敛,以获得训练好的自动语音识别模型。
[0015]本专利技术所采用的第二个技术方案是:一种增强噪声鲁棒性的语音识别系统,包括
预处理模块、自动语音识别模型构建模块、训练模块和识别模块;所述预处理模块用于获取噪声数据和具有文本标注的干净语音数据,基于所述干净语音数据和噪声数据生成加噪语音数据;对所述干净语音数据和加噪语音数据进行预处理以分别提取干净语音数据和加噪语音数据的梅尔频谱;所述自动语音识别模型构建模块用于构建自动语音识别模型,所述自动语音识别模型包括噪声特征修复网络层、编码层和解码层,所述噪声特征修复网络层包括依次连接的三层卷积操作、三层逆向卷积操作和一个Sigmoid激活函数,每层卷积操作和每层逆向卷积操作后面都连接一个批归一化操作和RELU激活函数;所述训练模块用于分别将干净语音数据和加噪语音数据的梅尔频谱输入所述自动语音识别模型中,获得干净语音数据的识别结果和加噪语音数据的识别结果,并基于所述文本、干净语音数据的识别结果和加噪语音数据的识别结果训练所述自动语音识别模型,以获得训练好的自动语音识别模型;所述识别模块用于基于所述训练好的自动语音识别模型对含噪语音数据进行识别。
[0016]上述技术方案的有益效果:(1)本专利技术公开的一种增强噪声鲁棒性的语音识别方法通过提出噪声特征修复网络(Noisy Feat本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种增强噪声鲁棒性的语音识别方法,其特征在于,包括以下步骤:S100:获取噪声数据和具有文本标注的干净语音数据,基于所述干净语音数据和噪声数据生成加噪语音数据;对所述干净语音数据和加噪语音数据进行预处理以分别提取干净语音数据和加噪语音数据的梅尔频谱;S200:构建自动语音识别模型,所述自动语音识别模型包括噪声特征修复网络层、编码层和解码层,所述噪声特征修复网络层包括依次连接的三层卷积操作、三层逆向卷积操作和一个Sigmoid激活函数,每层卷积操作和每层逆向卷积操作后面都连接一个批归一化操作和RELU激活函数;S300:分别将干净语音数据和加噪语音数据的梅尔频谱输入所述自动语音识别模型中,获得干净语音数据的识别结果和加噪语音数据的识别结果,并基于所述文本、干净语音数据的识别结果和加噪语音数据的识别结果训练所述自动语音识别模型,以获得训练好的自动语音识别模型;S400:基于所述训练好的自动语音识别模型对含噪语音数据进行识别。2.根据权利要求1所述的语音识别方法,其特征在于,所述步骤S100中的预处理包括:分别对干净语音数据和加噪语音数据进行重采样;将重采样后的干净语音数据和加噪语音数据进行预加重处理;然后通过短时傅立叶变换算法进行处理;最后进行梅尔频谱的转换,获得对应的干净语音数据的梅尔频谱和加噪语音数据的梅尔频谱。3.根据权利要求1所述的语音识别方法,其特征在于,所述步骤S300包括以下子步骤:S301:分别将干净语音数据和加噪语音数据的梅尔频谱输入噪声特征修复网络层,以获得干净语音数据的噪声特征修复权重和加噪语音数据的噪声特征修复权重;以及将干净语音数据的梅尔频谱乘以与其对应的噪声特征修复权重,将加噪语音数据的梅尔频谱乘以与其对应的噪声特征修复权重,从而分别得到干净语音数据和加噪语音数据修复后的语音特征;S302:分别将所述干净语音数据和加噪语音数据修复后的语音特征输入编码层,以获得干净语音数据和加噪语音数据的编码结果;S303:分别将所述干净语音数据和加噪语音数据的编码结果输入解码层,从而得到干净语音数据的识别结果和加噪语音数据的识别结果。4.根据权利要求1所述的语音识别方法,其特征在于,所述自动语音识别模型中的编码层是由6层Conformer

Des组成;所述Conformer

Des包括稠密连接卷积...

【专利技术属性】
技术研发人员:柯登峰王运峰陈立德徐艳艳
申请(专利权)人:北京林业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1