语音识别的方法、装置及存储介质制造方法及图纸

技术编号:26422407 阅读:19 留言:0更新日期:2020-11-20 14:18
本公开涉及一种语音识别的方法、装置及存储介质。该方法包括:当接收到语音信息时,将语音信息输入到生成的语音识别模型;通过语音识别模型输出识别结果;其中,生成语音识别模型,包括:对超网络进行训练,其中,所述超网络包括多层网络层,每一所述网络层包括M个子结构,所述M个子结构中的至少一个所述子结构包括时序卷积网络模块,M为大于或等于2的正整数;根据训练结果,分别从每一所述网络层的M个子结构中确定与所述网络层对应的目标子结构;根据每一所述网络层对应的所述目标子结构,生成所述语音识别模型。通过上述技术方案,提高语音识别模型的性能,保证语音识别的准确性,并且提高对语音信息的识别速度和响应速度。

【技术实现步骤摘要】
语音识别的方法、装置及存储介质
本公开涉及语音识别领域,尤其涉及语音识别的方法、装置及存储介质。
技术介绍
语音识别可以简单解释为识别语音或声音信号,在各个领域的应用越来越广泛。例如,在启动终端设备时,用户可以无需通过打开开关或指纹识别等操作,仅通过说出一小段语音即可将终端设备唤醒,这种启动设备的方式方便快捷。语音唤醒时通过检测语音关键词,将设备从休眠状态激活至运行状态,语音唤醒的响应速度和准确度直接影响用户使用设备的体验。目前,通常通过神经网络模型对语音进行识别,例如端到端的神经网络识别模型。神经网络模型一般由多个子模块组成,相关技术中,神经网络模型中的各个子模块是由人工选取的,由于人工选取的方式没有准确的数据支持,生成的网络模型的性能不佳。并且,相关技术中的神经网络模型一般复用视觉领域的模型,对语音识别的效果不好。如此,相关技术中进行语音识别的准确性和可靠性均不足,例如,在用户想要唤醒终端设备时,可能由于对用户说出的语音识别的不够准确而不能将设备及时唤醒,从而不能很好的满足用户的需求。
技术实现思路
为克服相关技术中存在的问题,本公开提供一种语音识别的方法、装置及存储介质。根据本公开实施例的第一方面,提供一种语音识别的方法,所述方法包括:当接收到语音信息时,将所述语音信息输入到生成的语音识别模型;通过所述语音识别模型输出识别结果;其中,生成所述语音识别模型,包括:对超网络进行训练,其中,所述超网络包括多层网络层,每一所述网络层包括M个子结构,所述M个子结构中的至少一个所述子结构包括时序卷积网络模块,M为大于或等于2的正整数;根据训练结果,分别从每一所述网络层的M个子结构中确定与所述网络层对应的目标子结构;根据每一所述网络层对应的所述目标子结构,生成所述语音识别模型。可选地,每一所述网络层的多个子结构中各自包括的所述时序卷积网络模块是根据预设的至少一个卷积核大小确定的,其中,每一所述卷积核大小对应的时序卷积网络模块包括包含压缩激励模块的时序卷积网络模块和不包含所述压缩激励模块的时序卷积网络模块。可选地,所述多个网络层中包括普通网络层和下采样网络层,所述普通网络层的子结构中包括普通时序卷积网络模块,所述下采样网络层的子结构中包括下采样时序卷积网络模块。可选地,每一所述网络层包括M个结构参数,所述M个结构参数与所述M个子结构一一对应,所述时序卷积网络模块包括网络参数;所述对超网络进行训练,包括:遍历训练样本,并将当前遍历到的所述训练样本作为目标训练样本;根据所述目标训练样本,对每一所述网络层的所述M个结构参数和所述时序卷积网络模块包括的所述网络参数进行交替更新,其中,在对所述结构参数进行更新时,所述网络参数保持不变,在对所述网络参数进行更新时,所述结构参数保持不变;在全部所述训练样本遍历完成的情况下,确定所述超网络是否符合收敛条件;在所述超网络符合所述收敛条件的情况下,停止训练,并获得所述训练结果;在所述超网络不符合所述收敛条件的情况下,重新执行所述遍历训练样本,并将当前遍历到的所述训练样本作为目标训练样本的步骤至所述根据所述目标训练样本,对每一所述网络层的所述M个结构参数和所述时序卷积网络模块包括的所述网络参数进行交替更新的步骤。可选地,每一所述网络层中包括归一化函数;所述根据训练结果,分别从每一所述网络层的M个子结构中确定与所述网络层对应的目标子结构,包括:针对每一所述网络层,根据所述训练结果,确定所述网络层的M个结构参数中使得所述归一化函数最大的目标结构参数,并将所述目标结构参数对应的子结构,作为所述目标子结构。可选地,所述M个子结构中至少一个子结构为跳跃连接。可选地,所述根据每一所述网络层对应的所述目标子结构,生成所述语音识别模型,包括:将每一所述网络层对应的所述目标子结构依次连接,得到子网络;根据训练样本对所述子网络进行训练,得到所述语音识别模型。可选地,所述通过所述语音识别模型输出识别结果,包括:对所述语音信息进行预处理,得到所述语音信息对应的频谱信息;通过所述语音识别模型对所述频谱信息进行处理,以得到所述语音信息对应的识别结果。根据本公开实施例的第二方面,提供一种语音识别的装置,所述装置包括:输入模块,被配置成用于当接收到语音信息时,将所述语音信息输入到生成的语音识别模型;识别模块,被配置成用于通过所述语音识别模型输出识别结果;其中,生成所述语音识别模型的生成装置,包括:超网络训练模块,被配置成用于对超网络进行训练,其中,所述超网络包括多层网络层,每一所述网络层包括M个子结构,所述M个子结构中的至少一个所述子结构包括时序卷积网络模块,M为大于或等于2的正整数;目标子结构确定模块,被配置成用于根据训练结果,分别从每一所述网络层的M个子结构中确定与所述网络层对应的目标子结构;模型生成模块,被配置成用于根据每一所述网络层对应的所述目标子结构,生成所述语音识别模型。可选地,每一所述网络层包括M个结构参数,所述M个结构参数与所述M个子结构一一对应,所述时序卷积网络模块包括网络参数;所述超网络训练模块,包括:遍历子模块,被配置成用于遍历训练样本,并将当前遍历到的所述训练样本作为目标训练样本;更新子模块,被配置成用于根据所述目标训练样本,对每一所述网络层的所述M个结构参数和所述时序卷积网络模块包括的所述网络参数进行交替更新,其中,在对所述结构参数进行更新时,所述网络参数保持不变,在对所述网络参数进行更新时,所述结构参数保持不变;确定子模块,被配置成用于在全部所述训练样本遍历完成的情况下,确定所述超网络是否符合收敛条件;获得子模块,被配置成用于在所述超网络符合所述收敛条件的情况下,停止训练,并获得所述训练结果;触发子模块,被配置成用于在所述超网络不符合所述收敛条件的情况下,触发所述遍历子模块遍历训练样本,并将当前遍历到的所述训练样本作为目标训练样本以及所述更新子模块根据所述目标训练样本,对每一所述网络层的所述M个结构参数和所述时序卷积网络模块包括的所述网络参数进行交替更新。可选地,每一所述网络层中包括归一化函数;所述目标子结构确定模块被配置成用于:针对每一所述网络层,根据所述训练结果,确定所述网络层的M个结构参数中使得所述归一化函数最大的目标结构参数,并将所述目标结构参数对应的子结构,作为所述目标子结构。可选地,所述模型生成模块,包括:连接子模块,被配置成用于将每一所述网络层对应的所述目标子结构依次连接,得到子网络;训练子模块,被配置成用于根据训练样本对所述子网络进行训练,得到所述语音识别模型。可选地,所述识别模块包括:预处理子模块,被配置成用于对所述语音信息进行预处理,得到所述语音信息对应的频谱信息;频谱信息处理子模块,通过所述语音识别模型对所述频谱信息进行处理,以得到所述语音信息对应的识别结果。根据本公开实施例的第三方面,提供一种语音识别的装置,包括:处理器;用于存储处理器可执行指令的存储器;其中,所述处理器被配置为:当接收到语音信息时,将所述语音信息输入到生成的语音识别模型;通过所述语音识别模型输出识别结果;本文档来自技高网...

【技术保护点】
1.一种语音识别的方法,其特征在于,所述方法包括:/n当接收到语音信息时,将所述语音信息输入到生成的语音识别模型;/n通过所述语音识别模型输出识别结果;/n其中,生成所述语音识别模型,包括:对超网络进行训练,其中,所述超网络包括多层网络层,每一所述网络层包括M个子结构,所述M个子结构中的至少一个所述子结构包括时序卷积网络模块,M为大于或等于2的正整数;/n根据训练结果,分别从每一所述网络层的M个子结构中确定与所述网络层对应的目标子结构;/n根据每一所述网络层对应的所述目标子结构,生成所述语音识别模型。/n

【技术特征摘要】
1.一种语音识别的方法,其特征在于,所述方法包括:
当接收到语音信息时,将所述语音信息输入到生成的语音识别模型;
通过所述语音识别模型输出识别结果;
其中,生成所述语音识别模型,包括:对超网络进行训练,其中,所述超网络包括多层网络层,每一所述网络层包括M个子结构,所述M个子结构中的至少一个所述子结构包括时序卷积网络模块,M为大于或等于2的正整数;
根据训练结果,分别从每一所述网络层的M个子结构中确定与所述网络层对应的目标子结构;
根据每一所述网络层对应的所述目标子结构,生成所述语音识别模型。


2.根据权利要求1所述的方法,其特征在于,每一所述网络层的多个子结构中各自包括的所述时序卷积网络模块是根据预设的至少一个卷积核大小确定的,其中,每一所述卷积核大小对应的时序卷积网络模块包括包含压缩激励模块的时序卷积网络模块和不包含所述压缩激励模块的时序卷积网络模块。


3.根据权利要求1所述的方法,其特征在于,所述多个网络层中包括普通网络层和下采样网络层,所述普通网络层的子结构中包括普通时序卷积网络模块,所述下采样网络层的子结构中包括下采样时序卷积网络模块。


4.根据权利要求1所述的方法,其特征在于,每一所述网络层包括M个结构参数,所述M个结构参数与所述M个子结构一一对应,所述时序卷积网络模块包括网络参数;
所述对超网络进行训练,包括:
遍历训练样本,并将当前遍历到的所述训练样本作为目标训练样本;
根据所述目标训练样本,对每一所述网络层的所述M个结构参数和所述时序卷积网络模块包括的所述网络参数进行交替更新,其中,在对所述结构参数进行更新时,所述网络参数保持不变,在对所述网络参数进行更新时,所述结构参数保持不变;
在全部所述训练样本遍历完成的情况下,确定所述超网络是否符合收敛条件;
在所述超网络符合所述收敛条件的情况下,停止训练,并获得所述训练结果;
在所述超网络不符合所述收敛条件的情况下,重新执行所述遍历训练样本,并将当前遍历到的所述训练样本作为目标训练样本的步骤至所述根据所述目标训练样本,对每一所述网络层的所述M个结构参数和所述时序卷积网络模块包括的所述网络参数进行交替更新的步骤。


5.根据权利要求4所述的方法,其特征在于,每一所述网络层中包括归一化函数;所述根据训练结果,分别从每一所述网络层的M个子结构中确定与所述网络层对应的目标子结构,包括:
针对每一所述网络层,根据所述训练结果,确定所述网络层的M个结构参数中使得所述...

【专利技术属性】
技术研发人员:张勃初祥祥李庆源
申请(专利权)人:北京小米松果电子有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1