当前位置: 首页 > 专利查询>赵铭专利>正文

一种用于语音命令词识别的深度神经网络构建方法和识别方法及装置制造方法及图纸

技术编号：24332710 阅读：66 留言：0更新日期：2020-05-29 20:29

本发明专利技术涉及一种用于语音命令词识别的深度神经网络构建方法和识别方法及装置。该方法包括：由语音命令集和干扰语音集构成训练数据，对训练数据中的每条语音进行分帧，对每帧语音提取特征参数，得到多通道的一维特征向量；将所有多通道的一维特征向量输入CNN网络进行训练，网络中部分或者全部卷积层使用一维卷积内核进行卷积操作，最终得到训练完成的用于语音命令词识别的CNN网络。本发明专利技术将语音特征看作多通道一维特征向量，采用一维卷积操作代替二维卷积操作，能够有效的降低卷积操作的计算量，达到与二维卷积同样级别的识别精度，使智能设备实现本地离线的、能够快速响应的语音命令识别功能，降低了识别的功耗，给用户以良好的使用体验。

A deep neural network construction method, recognition method and device for speech command word recognition

全部详细技术资料下载

【技术实现步骤摘要】
一种用于语音命令词识别的深度神经网络构建方法和识别方法及装置
本专利技术属于语音识别(speechrecognition)、人工智能(artificialintelligence)、深度神经网络(deepneuralnetwork)、卷积神经网络(CNN，convolutionneuralnetwork)算法领域，具体涉及一种用于语音命令词识别的深度卷积神经网络构建方法和基于该神经网络进行语音命令识别的方及装置。
技术介绍
语音命令词识别是智能设备人机语音交互功能的重要组成部分。它需要实时响应、高精度和良好的用户体验。传统的语音识别技术使用隐含马尔可夫模型(HMMS)和维特比译码，虽然达到了合理的精度，但模型训练的复杂度高，推理(识别)过程的计算量大，识别延时也较大。近年来，采用深度神经网络进行语音的复杂语句识别和命令词识别已成为一种有吸引力的选择，其比传统的语音识别算法有更高的准确性和更少的识别延时。智能设备实现语音命令识别可以有两种方式，一种是将语音命令送到云端进行识别，一种是本地识别。云端识别可以使用复...

【技术保护点】
1.一种用于语音命令词识别的深度神经网络构建方法，其特征在于，包括以下步骤：/n由语音命令集和干扰语音集构成训练数据，对训练数据中的每条语音进行分帧，对每帧语音提取特征参数，得到多通道的一维特征向量；/n将所有多通道的一维特征向量输入CNN网络进行训练，CNN网络中部分或者全部卷积层使用一维卷积内核进行卷积操作，最终得到训练完成的用于语音命令词识别的CNN网络。/n

【技术特征摘要】
1.一种用于语音命令词识别的深度神经网络构建方法，其特征在于，包括以下步骤：
由语音命令集和干扰语音集构成训练数据，对训练数据中的每条语音进行分帧，对每帧语音提取特征参数，得到多通道的一维特征向量；
将所有多通道的一维特征向量输入CNN网络进行训练，CNN网络中部分或者全部卷积层使用一维卷积内核进行卷积操作，最终得到训练完成的用于语音命令词识别的CNN网络。

2.根据权利要求1所述的方法，其特征在于，所述CNN网络中部分或者全部卷积层使用一维卷积内核进行卷积操作，以及激活、池化操作，生成新的多通道的一维特征向量，输入给下一层。

3.根据权利要求1所述的方法，其特征在于，所述的对训练数据中的每条语音进行分帧，对每帧语音提取特征参数，得到多通道的一维特征向量，包括：
将一段语音分成N个语音帧，每个语音帧提取出K个特征参数，从而得到N*K个语音特征，将N*K个语音特征作为K个通道的一维特征向量，每个通道的一维向量含有N个数据。

4.根据权利要求3所述的方法，其特征在于，所述一维卷积内核采用的一维卷积公式为：

其中，是l层的输出特征向量组Zl的第k个通道的一维特征向量，k∈[0，Kl-1]，Kl是Zl的通道数目；是Zl的第k个通道的一维特征向量的第i个值；是l+1层的卷积结果Tl+1的第j个通道的一维特征向量，j∈[0，Kl+1-1]，Kl+1是Tl+1的通道数目；是一维卷积内核Wl+1的系数，对应第l+1层第k个输入通道，第j个输出通道；b是偏移值；x∈[-x0，x1]，x0，x1决定卷积操作的范围，对于输入的卷积操作的范围是从位置(i-x0)到位置(i+x1)。

5.根据权利要...

【专利技术属性】
技术研发人员：赵铭，胡伟，蔡一茂，
申请(专利权)人：赵铭，胡伟，蔡一茂，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人