【技术实现步骤摘要】
本专利技术涉及语音识别领域,具体是复杂背景噪声环境下基于声谱图和长短时记忆网络的语音识别方法及系统。
技术介绍
1、传统语音识别系统在复杂噪声环境下存在性能差、识别率不高的问题,具体表现主要有以下几种:
2、1)噪声干扰:传统语音识别系统通常对背景噪声敏感,尤其是当噪声水平较高时。例如,在街道噪音、人群谈话声或机械噪声等复杂背景下,系统的识别准确率可能显著下降。
3、2)特征提取不足:早期的系统依赖于较为简单的声学特征提取技术,如线性预测编码(lpc)或梅尔频率倒谱系数(mfcc),这些方法在复杂噪声环境下可能无法有效区分语音和噪声。
4、3)模型泛化能力不足:传统模型,如隐马尔可夫模型(hmm)或基于gaussianmixture model(gmm)的系统,可能在噪声条件变化时泛化能力不足,难以适应不同类型的噪声环境。
5、4)语音和噪声难以分离:在复杂噪声环境下,传统系统往往难以有效地分离语音和噪声,尤其是当噪声与语音在频谱上有重叠时。
6、5)实时处理能力有限:处理复杂
...【技术保护点】
1.复杂背景噪声环境下基于声谱图和长短时记忆网络的语音识别方法,其特征在于,包括以下步骤:
2.根据权利要求1所述复杂背景噪声环境下基于声谱图和长短时记忆网络的语音识别方法,其特征在于,生成对应声谱图的步骤包括:
3.根据权利要求2所述复杂背景噪声环境下基于声谱图和长短时记忆网络的语音识别方法,其特征在于,相邻两帧音频数据之间具有重叠。
4.根据权利要求2所述复杂背景噪声环境下基于声谱图和长短时记忆网络的语音识别方法,其特征在于,对频率成分进行对数变换前,还对频率成分进行梅尔尺度转换;
5.根据权利要求1所述复杂背景噪声
...【技术特征摘要】
1.复杂背景噪声环境下基于声谱图和长短时记忆网络的语音识别方法,其特征在于,包括以下步骤:
2.根据权利要求1所述复杂背景噪声环境下基于声谱图和长短时记忆网络的语音识别方法,其特征在于,生成对应声谱图的步骤包括:
3.根据权利要求2所述复杂背景噪声环境下基于声谱图和长短时记忆网络的语音识别方法,其特征在于,相邻两帧音频数据之间具有重叠。
4.根据权利要求2所述复杂背景噪声环境下基于声谱图和长短时记忆网络的语音识别方法,其特征在于,对频率成分进行对数变换前,还对频率成分进行梅尔尺度转换;
5.根据权利要求1所述复杂背景噪声环境下基于声谱图和长短时记忆网络的语音识别方法,其特征在于,对声谱图进行处理的步骤包括:
6.根据权利要求1所述复杂背景噪声环境下基于声谱图和长短时记忆网...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。