一种基于深度残差神经网络的语音识别方法技术

技术编号：19513801 阅读：19 留言：0更新日期：2018-11-21 09:18

本发明专利技术公开了一种基于深度残差神经网络的语音识别方法，具体按照构建语音库，得到n+1组声音信号组；随机将n+1组声音信号组分为n组训练组和1组测试组；利用n组训练组训练深度残差神经网络，得到训练好的深度残差神经网络；将测试组的语音数据输入至训练好的深度残差神经网络中进行测试；若语音识别准确度大幅度下降，则调整残差神经网络的权重和阈值，重新进行残差神经网络的训练，训练后再次进行测试，如此循环，直至语音识别准确度不降低，则使用当前残差神经网络进行语音识别的步骤。本发明专利技术方法，防止了各种马鞍情况和收敛速度过慢的出现，防止了过拟合现象的发生，从而保证了整个网络的高效快速准确的运行，语音识别准确率更高。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于深度残差神经网络的语音识别方法
本专利技术属于语音识别方法
，涉及一种基于深度残差神经网络的语音识别方法。
技术介绍
在卷积神经网络中，网络的深度往往与识别的正确率密切相关，因为传统的卷积神经网络能够提取到low/mid/high-level的多层次特征，网络的层数越多，意味着提取到的特征越丰富。但随着卷积神经网络层数的不断加深，“退化现象”开始出现，以至于错误率的急剧飙升。残差神经网络是在深度卷积神经网络结构的基础上加入“快捷连接(Shortcuts)”来实现网络的映射，并在该映射的基础上来拟合残差函数，从而克服“退化现象”也能够显著提升准确率。利用残差神经网络的表征能力特点，可将其广泛的应用于计算机时域信号识别。然而经实践验证，残差神经网络存在一下不足：1.马鞍情况的出现；2.在对待简单的问题时容易发生过拟合现象；3.收敛的速度与传统的网络相比较为缓慢，时效性较强，在工程应用中效率不高。
技术实现思路
本专利技术的目的是提供一种基于深度残差神经网络的语音识别方法，能够显著提高识别的准确率。本专利技术所采用的技术方案是，一种基于深度残差神经网络的语音识别方法，具体按照下述步骤进行：步骤1，构建语音库，得到n+1组声音信号组；步骤2，随机将n+1组声音信号组分为n组训练组和1组测试组；步骤3，利用n组训练组训练深度残差神经网络，得到训练好的深度残差神经网络；步骤4，将测试组的语音数据输入至训练好的深度残差神经网络中进行测试；若语音识别准确度大幅度下降，则调整残差神经网络的权重和阈值，重新进行残差神经网络的训练，训练后再次进行测试，如此循环，直至语...

【技术保护点】
1.一种基于深度残差神经网络的语音识别方法，其特征在于，具体按照下述步骤进行：步骤1，构建语音库，得到n+1组声音信号组；步骤2，随机将n+1组声音信号组分为n组训练组和1组测试组；步骤3，利用n组所述训练组训练深度残差神经网络，得到训练好的深度残差神经网络；步骤4，将所述测试组的语音数据输入至训练好的深度残差神经网络中进行测试；若语音识别准确度大幅度下降，则调整残差神经网络的权重和阈值，重新进行残差神经网络的训练，训练后再次进行测试，如此循环，直至语音识别准确度不降低，则使用当前残差神经网络进行语音识别。

【技术特征摘要】
1.一种基于深度残差神经网络的语音识别方法，其特征在于，具体按照下述步骤进行：步骤1，构建语音库，得到n+1组声音信号组；步骤2，随机将n+1组声音信号组分为n组训练组和1组测试组；步骤3，利用n组所述训练组训练深度残差神经网络，得到训练好的深度残差神经网络；步骤4，将所述测试组的语音数据输入至训练好的深度残差神经网络中进行测试；若语音识别准确度大幅度下降，则调整残差神经网络的权重和阈值，重新进行残差神经网络的训练，训练后再次进行测试，如此循环，直至语音识别准确度不降低，则使用当前残差神经网络进行语音识别。2.根据权利要求1所述的一种基于深度残差神经网络的语音识别方法，其特征在于，所述步骤1中构建语音库具体按照下述方法进行：步骤1.1，随机选取多个不同的汉字组成测试汉字组；步骤1.2，采集所述测试汉字组中每一个汉字的声音信号，得到初始声音信号组；步骤1.3，将所述初始声音信号组的每个声音信号进行类别标号，将每个类别标号后的声音信号进行预处理变成二维数据形式的声音信号，得到一组声音信号组；步骤1.4，将步骤1.2和步骤1.3重复n+1次，得到n+1组声音信号组。3.根据权利要求2所述的一种基于深度残差神经网络的语音识别方法，其特征在于，所述步骤1.3中对声音信号按照下述步骤进行预处理：步骤1.3.1，将所述初始声音信号组中的每个声音信号均进行傅里叶变换变成频域声音信号，得到频域声音信号组；步骤1.3.2，将所述频域声音信号组每个频域声音信号均进行正则化处理变成正则化信号，得到正则化信号组；步骤1.3.3，将所述正则化信号组中的每个所述正则化信号转化为二维矩阵形式的声音信号，得到声音信号组。4.根据权利要求1所述的一种基于深度残差神经网络的...

【专利技术属性】
技术研发人员：齐勇，张立泽清，刘浩哲，雷凯，行习铭，赵智健，张文天，王妮，
申请(专利权)人：陕西科技大学，
类型：发明
国别省市：陕西,61

全部详细技术资料下载我是这个专利的主人