一种增强噪声鲁棒性的语音识别方法和系统技术方案

技术编号：38907172 阅读：33 留言：0更新日期：2023-09-22 14:25

本发明专利技术涉及语音信号处理技术领域，具体公开了一种增强噪声鲁棒性的语音识别方法和系统，包括获取噪声数据和具有文本标注的干净语音数据，基于干净语音数据和噪声数据生成加噪语音数据；对干净语音数据和加噪语音数据进行预处理提取干净语音数据和加噪语音数据的梅尔频谱；构建自动语音识别模型，将干净语音数据和加噪语音数据的梅尔频谱输入自动语音识别模型中，获得干净语音数据的识别结果和加噪语音数据的识别结果；基于文本、干净语音数据和加噪语音数据的识别结果训练自动语音识别模型，以获得训练好的自动语音识别模型；基于训练好的自动语音识别模型对含噪语音数据进行识别；该方法提升了自动语音识别模型的噪声鲁棒性。鲁棒性。鲁棒性。

全部详细技术资料下载

【技术实现步骤摘要】
一种增强噪声鲁棒性的语音识别方法和系统

[0001]本专利技术涉及语音信号处理
，具体涉及一种增强噪声鲁棒性的语音识别方法和系统。

技术介绍

[0002]自动语音识别是将音频信息转录成文字信息的一种技术；随着深度学习的发展，端到端自动语音识别在日常生活中的应用场景越来越多，已经渗透到人们生活的方方面面，在手机语音助手、车载语音导航和智能机器人等方面已有广泛的应用；目前，在干净语音下的识别效果已经特别好，甚至已经超越了人耳的准确率。
[0003]然而，生活中到处充满着噪声，在实际使用中，端到端自动语音识别通常会受到背景噪声的影响，这种影响会严重降低端到端语音识别模型的识别效果，特别在低信噪比时，甚至会使模型完全不能使用，这对于端到端自动语音识别模型在现实生活中的推广与应用仍是一个特别大的挑战；目前主流的解决方法是利用数据增强技术，数据增强技术是指在传统编解码模型的基础上，在编码阶段之前引入一个数据增强模块；数据增强技术包括传统的统计方法，如维纳滤波器和基于DNN的语音增强方法，如时频掩码，信号近似和谱映射；数据增强技术通过不同的信噪比(SNR)值的噪声类型对原始干净语音数据进行增强和扩充，并作为输入传入到端到端模型中；通过对加噪语音数据特征进行增强，目的是使得加噪语音数据得到的特征与其对应的干净语音数据一致，训练模型提取噪声不变性特征的能力；与较高层相比，端到端模型的较低层进行了较大的梯度更新。
[0004]然而，语音增强部分通常与识别部分不同，因此增强方法无法向最终目标优化，从而导致了次优解；而...

【技术保护点】

【技术特征摘要】
1.一种增强噪声鲁棒性的语音识别方法，其特征在于，包括以下步骤：S100：获取噪声数据和具有文本标注的干净语音数据，基于所述干净语音数据和噪声数据生成加噪语音数据；对所述干净语音数据和加噪语音数据进行预处理以分别提取干净语音数据和加噪语音数据的梅尔频谱；S200：构建自动语音识别模型，所述自动语音识别模型包括噪声特征修复网络层、编码层和解码层，所述噪声特征修复网络层包括依次连接的三层卷积操作、三层逆向卷积操作和一个Sigmoid激活函数，每层卷积操作和每层逆向卷积操作后面都连接一个批归一化操作和RELU激活函数；S300：分别将干净语音数据和加噪语音数据的梅尔频谱输入所述自动语音识别模型中，获得干净语音数据的识别结果和加噪语音数据的识别结果，并基于所述文本、干净语音数据的识别结果和加噪语音数据的识别结果训练所述自动语音识别模型，以获得训练好的自动语音识别模型；S400：基于所述训练好的自动语音识别模型对含噪语音数据进行识别。2.根据权利要求1所述的语音识别方法，其特征在于，所述步骤S100中的预处理包括：分别对干净语音数据和加噪语音数据进行重采样；将重采样后的干净语音数据和加噪语音数据进行预加重处理；然后通过短时傅立叶变换算法进行处理；最后进行梅尔频谱的转换，获得对应的干净语音数据的梅尔频谱和加噪语音数据的梅尔频谱。3.根据权利要求1所述的语音识别方法，其特征在于，所述步骤S300包括以下子步骤：S301：分别将干净语音数据和加噪语音数据的梅尔频谱输入噪声特征修复网络层，以获得干净语音数据的噪声特征修复权重和加噪语音数据的噪声特征修复权重；以及将干净语音数据的梅尔频谱乘以与其对应的噪声特征修复权重，将加噪语音数据的梅尔频谱乘以与其对应的噪声特征修复权重，从而分别得到干净语音数据和加噪语音数据修复后的语音特征；S302：分别将所述干净语音数据和加噪语音数据修复后的语音特征输入编码层，以获得干净语音数据和加噪语音数据的编码结果；S303：分别将所述干净语音数据和加噪语音数据的编码结果输入解码层，从而得到干净语音数据的识别结果和加噪语音数据的识别结果。4.根据权利要求1所述的语音识别方法，其特征在于，所述自动语音识别模型中的编码层是由6层Conformer
‑
Des组成；所述Conformer
‑
Des包括稠密连接卷积...

【专利技术属性】
技术研发人员：柯登峰，王运峰，陈立德，徐艳艳，
申请(专利权)人：北京林业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人