一种基于深度学习的语音识别系统技术方案

技术编号:44984865 阅读:16 留言:0更新日期:2025-04-15 17:03
本发明专利技术涉及深度学习技术领域,具体公开了一种基于深度学习的语音识别系统,所述语音识别系统包括:特征提取模块、卷积神经网络模块、输出层与解码模块和训练与优化模块;所述特征提取模块通过梅尔频率倒谱系数(MFCC)和对数梅尔滤波器能量系数(MFSC)提取语音信号的频谱特征;所述卷积神经网络模块通过卷积层和池化层提取语音信号的局部特征,采用有限权重共享(LWS)策略进行特征提取;所述输出层与解码模块通过Softmax激活函数将卷积神经网络的高维特征映射为音素或词的概率分布;所述训练与优化模块通过反向传播算法和随机梯度下降(SGD)优化卷积神经网络参数。本发明专利技术能够有效融合语音特征,实现了高准确率和低计算量的语音识别。

【技术实现步骤摘要】

本专利技术涉及深度学习,更具体地说,本专利技术涉及一种基于深度学习的语音识别系统


技术介绍

1、随着语音识别技术的发展,早期的识别方法主要基于隐马尔可夫模型(hmm),通过对语音信号进行短时静态建模,将其转换为时序特征,并结合高斯混合模型(gmm)进行概率计算。然而,传统hmm-gmm方法在噪声环境下的鲁棒性较差,且对复杂数据的建模能力有限。此外,这些方法依赖于浅层神经网络(如单层感知器或简单的前馈网络),无法有效提取高维、非线性特征,导致识别准确率难以提升。近年来,随着深度学习的兴起,基于深度神经网络(dnn)卷积神经网络(cnn)的语音识别系统逐渐成为研究热点。深度神经网络通过多层非线性变换,可以从大规模数据中提取更具区分性的高层特征,大幅度提升了语音识别性能。

2、现有公开文献1(基于深度学习的语音识别技术研究[d].北方工业大学,2024)中,提出的联合门控自注意网络能够有效的捕获局部特征和全局依赖关系,但在大规模数据集上训练时,因为模型需要在更多数据点之间建立长程依赖关系,该网络中复杂的注意力机制会导致计算量过大,影响模型的响应速度本文档来自技高网...

【技术保护点】

1.一种基于深度学习的语音识别系统,其特征在于,包括特征提取模块、卷积神经网络模块、输出层与解码模块和训练与优化模块;所述特征提取模块通过梅尔频率倒谱系数和对数梅尔滤波器能量系数提取语音信号的频谱特征,并结合一阶和二阶差分捕捉语音的动态变化;所述卷积神经网络模块通过卷积层和池化层提取语音信号的局部特征,采用有限权重共享策略,使得每个频率子带使用独立的卷积核进行特征提取;所述输出层与解码模块结合了卷积神经网络和隐马尔可夫模型,通过Softmax激活函数将卷积神经网络的高维特征映射为音素或词的概率分布,并利用Viterbi算法根据所述概率分布和隐马尔可夫模型的转移概率,生成语音文本输出;...

【技术特征摘要】

1.一种基于深度学习的语音识别系统,其特征在于,包括特征提取模块、卷积神经网络模块、输出层与解码模块和训练与优化模块;所述特征提取模块通过梅尔频率倒谱系数和对数梅尔滤波器能量系数提取语音信号的频谱特征,并结合一阶和二阶差分捕捉语音的动态变化;所述卷积神经网络模块通过卷积层和池化层提取语音信号的局部特征,采用有限权重共享策略,使得每个频率子带使用独立的卷积核进行特征提取;所述输出层与解码模块结合了卷积神经网络和隐马尔可夫模型,通过softmax激活函数将卷积神经网络的高维特征映射为音素或词的概率分布,并利用viterbi算法根据所述概率分布和隐马尔可夫模型的转移概率,生成语音文本输出;

2.根据权利要求1所述的一种基于深度学习的语音识别系统,其特征在于,所述特征提取模块对输入的语音信号进行预处理,所述预处理包括:基于能量的端点检测,从原始语音信号中识别出有效的语音段落,去除前后无声或噪声部分,对语音信号进行分帧处理,每一帧的能量通过以下公式计算:其中,e(n)为第n帧的能量,x(n-i)表示信号在第n帧的采样值,m为帧长度,i是对前m个采样点进行加权求和的索引;在噪声环境下,使用谱减法通过估计背景噪声的频谱并从输入信号的频谱中减去噪声部分,从而抑制噪声;使用基于能量的静音去除法,去除静音部分。

3.根据权利要求1所述的一种基于深度学习的语音识别系统,其特征在于,所述输出层与解码模块利用的viterbi算法是一种动态规划算法,通过逐步计算每个状态的最大概率路径,最终得到整个语音片段最可能的词或音素序列,所述viterbi算法通过递归的方式计算每一帧的...

【专利技术属性】
技术研发人员:王丽然张家琦朱磊赵飞燕王安齐林妍辰赵子涵赵飞龙
申请(专利权)人:鲁南技师学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1