当前位置: 首页 > 专利查询>重庆大学专利>正文

复杂背景噪声环境下基于声谱图和长短时记忆网络的语音识别方法及系统技术方案

技术编号:42492669 阅读:41 留言:0更新日期:2024-08-21 13:10
本发明专利技术公开复杂背景噪声环境下基于声谱图和长短时记忆网络的语音识别方法及系统。方法包括以下步骤:1)获取用于训练的音频信号,并生成对应的声谱图;2)对声谱图进行处理;3)利用所述声谱图构建语音识别模型;4)获取待识别的音频信号,并生成对应的待识别声谱图;5)将待识别声谱图输入至语音识别模型中,得到语音识别结果。系统包括语音获取模块、信号处理模块、语音识别模块和识别结果输出模块;本发明专利技术在复杂背景噪声环境下的语音识别任务中,可以显著提升识别准确率和系统的整体性能,增强算法的鲁棒性和适应性,从而更好地满足实际应用中的需求。

【技术实现步骤摘要】

本专利技术涉及语音识别领域,具体是复杂背景噪声环境下基于声谱图和长短时记忆网络的语音识别方法及系统


技术介绍

1、传统语音识别系统在复杂噪声环境下存在性能差、识别率不高的问题,具体表现主要有以下几种:

2、1)噪声干扰:传统语音识别系统通常对背景噪声敏感,尤其是当噪声水平较高时。例如,在街道噪音、人群谈话声或机械噪声等复杂背景下,系统的识别准确率可能显著下降。

3、2)特征提取不足:早期的系统依赖于较为简单的声学特征提取技术,如线性预测编码(lpc)或梅尔频率倒谱系数(mfcc),这些方法在复杂噪声环境下可能无法有效区分语音和噪声。

4、3)模型泛化能力不足:传统模型,如隐马尔可夫模型(hmm)或基于gaussianmixture model(gmm)的系统,可能在噪声条件变化时泛化能力不足,难以适应不同类型的噪声环境。

5、4)语音和噪声难以分离:在复杂噪声环境下,传统系统往往难以有效地分离语音和噪声,尤其是当噪声与语音在频谱上有重叠时。

6、5)实时处理能力有限:处理复杂噪声通常需要更复杂的本文档来自技高网...

【技术保护点】

1.复杂背景噪声环境下基于声谱图和长短时记忆网络的语音识别方法,其特征在于,包括以下步骤:

2.根据权利要求1所述复杂背景噪声环境下基于声谱图和长短时记忆网络的语音识别方法,其特征在于,生成对应声谱图的步骤包括:

3.根据权利要求2所述复杂背景噪声环境下基于声谱图和长短时记忆网络的语音识别方法,其特征在于,相邻两帧音频数据之间具有重叠。

4.根据权利要求2所述复杂背景噪声环境下基于声谱图和长短时记忆网络的语音识别方法,其特征在于,对频率成分进行对数变换前,还对频率成分进行梅尔尺度转换;

5.根据权利要求1所述复杂背景噪声环境下基于声谱图和长...

【技术特征摘要】

1.复杂背景噪声环境下基于声谱图和长短时记忆网络的语音识别方法,其特征在于,包括以下步骤:

2.根据权利要求1所述复杂背景噪声环境下基于声谱图和长短时记忆网络的语音识别方法,其特征在于,生成对应声谱图的步骤包括:

3.根据权利要求2所述复杂背景噪声环境下基于声谱图和长短时记忆网络的语音识别方法,其特征在于,相邻两帧音频数据之间具有重叠。

4.根据权利要求2所述复杂背景噪声环境下基于声谱图和长短时记忆网络的语音识别方法,其特征在于,对频率成分进行对数变换前,还对频率成分进行梅尔尺度转换;

5.根据权利要求1所述复杂背景噪声环境下基于声谱图和长短时记忆网络的语音识别方法,其特征在于,对声谱图进行处理的步骤包括:

6.根据权利要求1所述复杂背景噪声环境下基于声谱图和长短时记忆网...

【专利技术属性】
技术研发人员:何光辉付作涛毕皓雨
申请(专利权)人:重庆大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1