【技术实现步骤摘要】
一种用于语音命令词识别的深度神经网络构建方法和识别方法及装置
本专利技术属于语音识别(speechrecognition)、人工智能(artificialintelligence)、深度神经网络(deepneuralnetwork)、卷积神经网络(CNN,convolutionneuralnetwork)算法领域,具体涉及一种用于语音命令词识别的深度卷积神经网络构建方法和基于该神经网络进行语音命令识别的方及装置。
技术介绍
语音命令词识别是智能设备人机语音交互功能的重要组成部分。它需要实时响应、高精度和良好的用户体验。传统的语音识别技术使用隐含马尔可夫模型(HMMS)和维特比译码,虽然达到了合理的精度,但模型训练的复杂度高,推理(识别)过程的计算量大,识别延时也较大。近年来,采用深度神经网络进行语音的复杂语句识别和命令词识别已成为一种有吸引力的选择,其比传统的语音识别算法有更高的准确性和更少的识别延时。智能设备实现语音命令识别可以有两种方式,一种是将语音命令送到云端进行识别,一种是本地识别。云端识别可以使用复 ...
【技术保护点】
1.一种用于语音命令词识别的深度神经网络构建方法,其特征在于,包括以下步骤:/n由语音命令集和干扰语音集构成训练数据,对训练数据中的每条语音进行分帧,对每帧语音提取特征参数,得到多通道的一维特征向量;/n将所有多通道的一维特征向量输入CNN网络进行训练,CNN网络中部分或者全部卷积层使用一维卷积内核进行卷积操作,最终得到训练完成的用于语音命令词识别的CNN网络。/n
【技术特征摘要】
1.一种用于语音命令词识别的深度神经网络构建方法,其特征在于,包括以下步骤:
由语音命令集和干扰语音集构成训练数据,对训练数据中的每条语音进行分帧,对每帧语音提取特征参数,得到多通道的一维特征向量;
将所有多通道的一维特征向量输入CNN网络进行训练,CNN网络中部分或者全部卷积层使用一维卷积内核进行卷积操作,最终得到训练完成的用于语音命令词识别的CNN网络。
2.根据权利要求1所述的方法,其特征在于,所述CNN网络中部分或者全部卷积层使用一维卷积内核进行卷积操作,以及激活、池化操作,生成新的多通道的一维特征向量,输入给下一层。
3.根据权利要求1所述的方法,其特征在于,所述的对训练数据中的每条语音进行分帧,对每帧语音提取特征参数,得到多通道的一维特征向量,包括:
将一段语音分成N个语音帧,每个语音帧提取出K个特征参数,从而得到N*K个语音特征,将N*K个语音特征作为K个通道的一维特征向量,每个通道的一维向量含有N个数据。
4.根据权利要求3所述的方法,其特征在于,所述一维卷积内核采用的一维卷积公式为:
其中,是l层的输出特征向量组Zl的第k个通道的一维特征向量,k∈[0,Kl-1],Kl是Zl的通道数目;是Zl的第k个通道的一维特征向量的第i个值;是l+1层的卷积结果Tl+1的第j个通道的一维特征向量,j∈[0,Kl+1-1],Kl+1是Tl+1的通道数目;是一维卷积内核Wl+1的系数,对应第l+1层第k个输入通道,第j个输出通道;b是偏移值;x∈[-x0,x1],x0,x1决定卷积操作的范围,对于输入的卷积操作的范围是从位置(i-x0)到位置(i+x1)。
5.根据权利要...
【专利技术属性】
技术研发人员:赵铭,胡伟,蔡一茂,
申请(专利权)人:赵铭,胡伟,蔡一茂,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。