一种基于深度残差神经网络的语音识别方法技术

技术编号:19513801 阅读:19 留言:0更新日期:2018-11-21 09:18
本发明专利技术公开了一种基于深度残差神经网络的语音识别方法,具体按照构建语音库,得到n+1组声音信号组;随机将n+1组声音信号组分为n组训练组和1组测试组;利用n组训练组训练深度残差神经网络,得到训练好的深度残差神经网络;将测试组的语音数据输入至训练好的深度残差神经网络中进行测试;若语音识别准确度大幅度下降,则调整残差神经网络的权重和阈值,重新进行残差神经网络的训练,训练后再次进行测试,如此循环,直至语音识别准确度不降低,则使用当前残差神经网络进行语音识别的步骤。本发明专利技术方法,防止了各种马鞍情况和收敛速度过慢的出现,防止了过拟合现象的发生,从而保证了整个网络的高效快速准确的运行,语音识别准确率更高。

【技术实现步骤摘要】
一种基于深度残差神经网络的语音识别方法
本专利技术属于语音识别方法
,涉及一种基于深度残差神经网络的语音识别方法。
技术介绍
在卷积神经网络中,网络的深度往往与识别的正确率密切相关,因为传统的卷积神经网络能够提取到low/mid/high-level的多层次特征,网络的层数越多,意味着提取到的特征越丰富。但随着卷积神经网络层数的不断加深,“退化现象”开始出现,以至于错误率的急剧飙升。残差神经网络是在深度卷积神经网络结构的基础上加入“快捷连接(Shortcuts)”来实现网络的映射,并在该映射的基础上来拟合残差函数,从而克服“退化现象”也能够显著提升准确率。利用残差神经网络的表征能力特点,可将其广泛的应用于计算机时域信号识别。然而经实践验证,残差神经网络存在一下不足:1.马鞍情况的出现;2.在对待简单的问题时容易发生过拟合现象;3.收敛的速度与传统的网络相比较为缓慢,时效性较强,在工程应用中效率不高。
技术实现思路
本专利技术的目的是提供一种基于深度残差神经网络的语音识别方法,能够显著提高识别的准确率。本专利技术所采用的技术方案是,一种基于深度残差神经网络的语音识别方法,具体按照下述步骤进行:步骤1,构建语音库,得到n+1组声音信号组;步骤2,随机将n+1组声音信号组分为n组训练组和1组测试组;步骤3,利用n组训练组训练深度残差神经网络,得到训练好的深度残差神经网络;步骤4,将测试组的语音数据输入至训练好的深度残差神经网络中进行测试;若语音识别准确度大幅度下降,则调整残差神经网络的权重和阈值,重新进行残差神经网络的训练,训练后再次进行测试,如此循环,直至语音识别准确度不降低,则使用当前残差神经网络进行语音识别。本专利技术的特点还在于:步骤1中构建语音库具体按照下述方法进行:步骤1.1,随机选取多个不同的汉字组成测试汉字组;步骤1.2,采集测试汉字组中每一个汉字的声音信号,得到初始声音信号组;步骤1.3,将初始声音信号组的每个声音信号进行类别标号,将每个类别标号后的声音信号进行预处理变成二维数据形式的声音信号,得到一组声音信号组;步骤1.4,将步骤1.2和步骤1.3重复n+1次,得到n+1组声音信号组。步骤1.3中对声音信号按照下述步骤进行预处理:步骤1.3.1,将初始声音信号组中的每个声音信号均进行傅里叶变换变成频域声音信号,得到频域声音信号组;步骤1.3.2,将频域声音信号组每个频域声音信号均进行正则化处理变成正则化信号,得到正则化信号组;步骤1.3.3,将正则化信号组中的每个正则化信号转化为二维矩阵形式的声音信号,得到声音信号组。步骤3中训练深度残差神经网络具体按照下述方法进行:步骤3.1,构建深度神经网络框架,其中,深度神经网络主要包括三个部分,第一部分为输入层,第二部分为隐含层,第三部分为输出层,隐含层连接在输入层上,输出层连接在隐含层上;隐含层包括至少一个训练层,每一个训练层的输入端均与输入层连接;步骤3.2,取一组训练组的语音数据从输入层全部输入至深度神经网络框架中进行训练,时遍历训练组的每一个语音数据,训练结束后,输出层输出语音识别的准确率;步骤3.3,准确率达到设定值,则当前的深度神经网络为训练好的深度残差神经网络;若准确率达不到设定值,则调整深度神经网络框架中的权重和阈值,并且增加一层训练层,训练层与调整前的深度神经网络框架的隐含层相连,取另一组训练组输入至调整后的深度神经网络框架进行训练,训练结束后,输出层输出语音识别的准确率;如此循环,直至准确率达到设定值,则当前的深度神经网络为训练好的深度残差神经网络。输出层为Soft-Max层。训练层包括两个相连的卷积层,一个卷积层连接输入层,另一个卷积层连接输出层,卷积层之间存在参数传递通道,且参数传递通道不能在卷积层之间相互交叉。每一个卷积层的激活函数使用Relu激活函数。每个卷积层后均连接有池化后层。本专利技术的有益效果是:本专利技术一种基于深度残差神经网络的语音识别方法,防止了各种马鞍情况和收敛速度过慢的出现,防止了过拟合现象的发生,从而保证了整个网络的高效快速准确的运行,语音识别准确率更高。附图说明图1是本专利技术一种基于深度残差神经网络的语音识别方法中实施例得到的深度残差神经网络的结构示意图。具体实施方式下面结合附图和具体实施方式对本专利技术进行详细说明。一种基于深度残差神经网络的语音识别方法,具体按照下述步骤进行:步骤1,构建语音库,得到n+1组声音信号组,具体按照下述方法进行:步骤1.1,随机选取多个不同的汉字组成测试汉字组;步骤1.2,采集测试汉字组中每一个汉字的声音信号,得到初始声音信号组;步骤1.3,将初始声音信号组的每个声音信号进行类别标号,将每个类别标号后的声音信号进行预处理变成二维声音信号,得到一组声音信号组,其中预处理按照下述方法进行:步骤1.3.1,将初始声音信号组中的每个声音信号均进行傅里叶变换变成频域声音信号,得到频域声音信号组;步骤1.3.2,将频域声音信号组每个频域声音信号均进行正则化处理变成3000维的正则化信号,得到正则化信号组;步骤1.3.3,将正则化信号组中的每个正则化信号转化为二维矩阵形式的声音信号,得到声音信号组。步骤1.4,将步骤1.2和步骤1.3重复n+1次,得到n+1组声音信号组。步骤2,随机将n+1组声音信号组分为n组训练组和1组测试组;步骤3,利用n组训练组训练深度残差神经网络,得到训练好的深度残差神经网络,具体按照下述方法进行:步骤3.1,构建如图1所示的深度神经网络框架,其中,深度神经网络主要包括三个部分,第一部分为输入层,第二部分为隐含层,第三部分为输出层,隐含层连接在输入层上,输出层连接在隐含层上;隐含层包括至少一个训练层,每一个训练层的输入端均与输入层连接;步骤3.2,取一组训练组的语音数据从输入层全部输入至深度神经网络框架中进行训练,训练时遍历训练组的每一个语音数据,训练结束后,输出层输出语音识别的准确率;步骤3.3,准确率达到设定值,则当前的深度神经网络为训练好的深度残差神经网络;若准确率达不到设定值,则调整深度神经网络框架中的权重和阈值,并且增加一层训练层,训练层的输出端与调整前的深度神经网络框架的隐含层的输出端相连进行数据的残差拟合,取另一组训练组输入至调整后的深度神经网络框架进行训练,训练结束后,输出层输出语音识别的准确率;如此循环,直至准确率达到设定值,则当前的深度神经网络为训练好的深度残差神经网络。其中,快捷连接层包括两个相互连接的卷积层,一个卷积层的输入端连接输入层,另一个卷积层的输出端进行残差拟合后与输出层相连,卷积层之间存在参数传递通道,且参数传递通道不能在卷积层之间相互交叉;每个卷积层的激活函数均使用Relu激活函数;每个卷积层后均连接有池化后层。步骤4,将测试组的语音数据输入至训练好的深度残差神经网络中进行测试;若语音识别准确度大幅度下降,则调整残差神经网络的权重和阈值,重新进行残差神经网络的训练,训练后再次进行测试,如此循环,直至语音识别准确度不降低,则使用当前残差神经网络进行语音识别。本专利技术一种基于深度残差神经网络的语音识别方法中,当语音识别的准确率达到设定值的时候,得到初始深度残差神经网络,改变初始深度残差神经网络的结构,增加快捷连接层组成残差网络结构,使用隐本文档来自技高网...

【技术保护点】
1.一种基于深度残差神经网络的语音识别方法,其特征在于,具体按照下述步骤进行:步骤1,构建语音库,得到n+1组声音信号组;步骤2,随机将n+1组声音信号组分为n组训练组和1组测试组;步骤3,利用n组所述训练组训练深度残差神经网络,得到训练好的深度残差神经网络;步骤4,将所述测试组的语音数据输入至训练好的深度残差神经网络中进行测试;若语音识别准确度大幅度下降,则调整残差神经网络的权重和阈值,重新进行残差神经网络的训练,训练后再次进行测试,如此循环,直至语音识别准确度不降低,则使用当前残差神经网络进行语音识别。

【技术特征摘要】
1.一种基于深度残差神经网络的语音识别方法,其特征在于,具体按照下述步骤进行:步骤1,构建语音库,得到n+1组声音信号组;步骤2,随机将n+1组声音信号组分为n组训练组和1组测试组;步骤3,利用n组所述训练组训练深度残差神经网络,得到训练好的深度残差神经网络;步骤4,将所述测试组的语音数据输入至训练好的深度残差神经网络中进行测试;若语音识别准确度大幅度下降,则调整残差神经网络的权重和阈值,重新进行残差神经网络的训练,训练后再次进行测试,如此循环,直至语音识别准确度不降低,则使用当前残差神经网络进行语音识别。2.根据权利要求1所述的一种基于深度残差神经网络的语音识别方法,其特征在于,所述步骤1中构建语音库具体按照下述方法进行:步骤1.1,随机选取多个不同的汉字组成测试汉字组;步骤1.2,采集所述测试汉字组中每一个汉字的声音信号,得到初始声音信号组;步骤1.3,将所述初始声音信号组的每个声音信号进行类别标号,将每个类别标号后的声音信号进行预处理变成二维数据形式的声音信号,得到一组声音信号组;步骤1.4,将步骤1.2和步骤1.3重复n+1次,得到n+1组声音信号组。3.根据权利要求2所述的一种基于深度残差神经网络的语音识别方法,其特征在于,所述步骤1.3中对声音信号按照下述步骤进行预处理:步骤1.3.1,将所述初始声音信号组中的每个声音信号均进行傅里叶变换变成频域声音信号,得到频域声音信号组;步骤1.3.2,将所述频域声音信号组每个频域声音信号均进行正则化处理变成正则化信号,得到正则化信号组;步骤1.3.3,将所述正则化信号组中的每个所述正则化信号转化为二维矩阵形式的声音信号,得到声音信号组。4.根据权利要求1所述的一种基于深度残差神经网络的...

【专利技术属性】
技术研发人员:齐勇张立泽清刘浩哲雷凯行习铭赵智健张文天王妮
申请(专利权)人:陕西科技大学
类型:发明
国别省市:陕西,61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1