关键词识别方法、装置、电子设备及存储介质制造方法及图纸

技术编号：40587930 阅读：5 留言：0更新日期：2024-03-12 21:47

本申请实施例公开了一种关键词识别方法、装置、电子设备及存储介质。该方法包括：获取待识别语音在各个时间窗口下的频谱特征；将所述各个时间窗口下的频谱特征分别输入到特征提取网络，得到所述待识别语音在不同频率下的频域特征；其中，每个频率下的频域特征是按照时间窗口从前往后的顺序对所述待识别语音在每个频率下的频域特征进行累积得到的；将所述不同频率下的频域特征输入到抉择网络，得到所述待识别语音的关键词；其中，所述特征提取网络的网络参数以及所述抉择网络的网络参数是基于动力学预先设定的，所述特征提取网络和所述抉择网络之间的网络参数是通过训练得到的。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及人工智能，具体涉及一种关键词识别方法、装置、电子设备及存储介质。

技术介绍

1、近年来，随着深度学习技术的快速发展，深度神经网也越来越用来进行关键词语音识别。深度神经网络可以被用于对语音信号端到端建模，深度网络的学习容量大，可以在大数据量上进行有监督。常用的模型有，深度卷积神经网络，循环神经网络如lstm，gru等，基于注意力机制的神经网络等。深度神经网络用于关键词语音识别大致可以分为两个部分，一个部分为特征提取，一个部分为时空特征整合识别。例如，深度卷积神经网络用于语音识别时，通常将语音转换为mfcc特征，然后只是单纯的将mfcc特征视为图片进行识别，导致识别精度比较低。

技术实现思路

1、本申请提供了一种关键词识别方法、装置、电子设备及存储介质，提高对语音关键词的识别精度，以及提高对语音关键词识别的鲁棒性。

2、第一方面，本申请实施例提供一种关键词识别方法，包括：

3、获取待识别语音在各个时间窗口下的频谱特征；

4、将所述各个时间窗口下的频谱特征分别输入到特征提取网络，得到所述待识别语音在不同频率下的频域特征；其中，每个频率下的频域特征是按照时间窗口从前往后的顺序对所述待识别语音在每个频率下的频域特征进行累积得到的；

5、将所述不同频率下的频域特征输入到抉择网络，得到所述待识别语音的关键词；

6、其中，所述特征提取网络的网络参数以及所述抉择网络的网络参数是基于动力学预先设定的，所述特征提取网络和所述抉择网

7、应说明的是，本申请的频域特征是指，待识别语音在频域下的能量。特征提取网络包含有多层子特征提取网络，每层子特征提取网络用于提取不同频率下的频域特征；抉择网络包括多层子抉择网络，每层子抉网络用于累积频域特征，并作出最终的决策。具体地，每层子抉择网络包括多个神经元，多个神经元之间相互抑制和自兴奋，最终竞争获取的神经元作出决策。可以看出，在本申请实施例中，在对待识别语音进行关键词识别时，并非单纯的将各个时间窗口下的频谱特征组成特征图，而是按照时间的顺序去处理每个时间窗口下的频谱特征，这样就可以按照时间的顺序去累积频谱特征，从而考虑到不同语音序列在时序上的联系，从而提高了对语音关键词的识别精度。此外，抉择网络中的神经元之间相互抑制和竞争，这样当待识别语音为噪声时，所有的神经元都无法作出抉择，这个时候网络也就处于不响应的状态，从而使关键词识别的鲁棒性比较高。并且，由于一些网络参数是通过动力学设置好的，无需训练，故本申请的网络模型可以使用数量较少的语音样本进行训练，以及可以很方便的实现在线学习。

8、在一些可能的实施方式中，所述特征提取网络包括n层子特征提取网络，所述n层子特征提取网络用于提取不同频率下的特征，每层子特征提取网络包括多个神经元；所述将所述频谱特征输入到特征提取网络，得到所述待识别语音不同频率下的频域特征，包括：

9、根据第l-1层子特征提取网络中各个神经元在时间窗口t下的突触电流，以及第l层子特征提取网络中各个神经元在时间窗口t-1下的突触电流，得到所述第l层子特征提取网络中各个神经元在时间窗口t下的突触电流，所述时间窗口t为各个时间窗口中的任意一一个，所述时间窗口t-1为所述时间窗口t的前一个时间窗口；当l＝1时，第0层子特征提取网络中各个神经元在时间窗口t下的突触电流为所述待识别语音在所述时间窗口t下的频谱特征；

10、赋值l＝l+1，并重复上述步骤，直至l＝n时，得到第n层子特征提取网络中各个神经元在所述时间窗口t下的突触电流；

11、根据所述第n层子特征提取网络中各个神经元在所述时间窗口t下的突触电流，确定所述待识别语音在所述时间窗口t，以及不同频率下的频域特征；

12、根据所述待识别语音在所述时间窗口t下，以及不同频率下的频域特征，确定所述待识别语音在各个时间窗口，以及不同频率下的频域特征。

13、可以看出，在本申请实施例中，每个子特征提取网络用于提取不同频率下的频域特征，并且将提取出的频域特征输出给下一个子特征提取网络，这样针对任意一个时间窗口来说，最后一个子特征提取网络就可以将该时间窗口下的语音序列在各个频率下的特征提取出来。并且，不同的时间窗口下的语音序列是按照时间的先后顺序输入给特征提取网络的，这样最后一层子特征提取网络就可以按照时间的顺序，将待识别语音在各个频率下的频域特征累积起来，从而在语音关键词识别时，可以考虑语音在时序上的联系，进而提高关键词识别精度。

14、在一些可能的实施方式中，所述根据第l-1层子特征提取网络中各个神经元在时间窗口 t下的突触电流，以及第l层子特征提取网络中各个神经元在时间窗口t-1下的突触电流，得到所述第l层子特征提取网络中各个神经元在时间窗口t下的突触电流，包括：

15、获取所述第l层子特征提取网络中的第i个神经元与所述第l-1层子特征提取网络中的第j个神经元之间的第一权重矩阵；

16、获取所述第l层子特征提取网络中的第i个神经元与所述第l层子特征提取网络中的第 k个神经元之间的第二权重矩阵，其中，i≠k；

17、获取与所述第l层子特征提取网络对应的预设时间常数；

18、根据所述第一权重矩阵、所述第二权重矩阵、所述预设时间常数、所述第l-1层子特征提取网络中各个神经元在时间窗口t下的突触电流，以及所述第l层子特征提取网络中各个神经元在时间窗口t-1下的突触电流，确定所述第l层子特征提取网络中的第i个神经元在所述时间窗口t下的突触电流；

19、根据所述第l层子特征提取网络中的第i个神经元在所述时间窗口t下的突触电流，确定所述第l层子特征提取网络中各个神经元在时间窗口t下的突触电流；

20、其中，所述第一权重矩阵、所述第二权重矩阵以及所述预设时间常数均是基于动力学预先设定的。

21、在一些可能的实施方式中，所述第l层子特征提取网络中的第i个神经元在时间窗口t 下的突触电流满足以下公式：

22、

23、其中，

24、其中，为所述第l层子特征提取网络中的第i个神经元在时间窗口t下的突触电流，τl为与所述第l层子特征提取网络对应的预设时间常数，且l越大，τl越大，以使不同深度的子特征提取网络提取不同频率下的频域特征；

25、为所述第一权重矩阵，nl-1为所述第l-1层子特征提取网络中神经元的数量；

26、为所述第二权重矩阵，nl为所述第l层子特征提取网络中神经元的数量；

27、为第1层子特征提取网络中的第i个神经元与第0层子特征提取网络中的第j个神经元之间的第一权重矩阵，nin为所述第0层子特征提取网络中的神经元的数量；

28、为所述时间窗口t下的频谱特征；

29、r为激活函数，则为对所述第l-1层子特征提取网络中的第j个神经元在所述时间窗口t下的突触电流进行激活，为对所述第l层子特本文档来自技高网...

【技术保护点】

1.一种关键词识别方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，

3.根据权利要求2所述的方法，其特征在于，

4.根据权利要求3所述的方法，其特征在于，

5.根据权利要求4所述的方法，其特征在于，

6.根据权利要求1-5中任一项所述的方法，其特征在于，

7.根据权利要求6所述的方法，其特征在于，

8.根据权利要求7所述的方法，其特征在于，

9.根据权利要求6-8中任一项所述的方法，其特征在于，所述根据所述第U层子抉择网络中的各个神经元在各个时间窗口下的突触电流，得到所述待识别语音的关键词，包括：

10.根据权利要求1-9中任一项所述的方法，其特征在于，获取待识别语音各个时间窗口下的频谱特征之前，所述方法还包括：

11.根据权利要求10所述的方法，其特征在于，

12.一种关键词识别装置，其特征在于，包括：获取单元和处理单元；

13.根据权利要求12所述的装置，其特征在于，

14.根据权利要求13所述的装置，其特征在于，

15.根据权利要求14所述的装置，其特征在于，

16.根据权利要求15所述的装置，其特征在于，

17.根据权利要求12-16中任一项所述的装置，其特征在于，

18.根据权利要求17所述的装置，其特征在于，

19.根据权利要求18所述的装置，其特征在于，

20.根据权利要求17-19中任一项所述的装置，其特征在于，

21.根据权利要求12-20中任一项所述的装置，其特征在于，所述装置还包括训练单元；

22.根据权利要求21所述的装置，其特征在于，

23.一种电子设备，其特征在于，包括：存储器，用于存储程序；处理器，用于执行存储器存储的程序；当存储器存储的程序被执行时，处理器用于实现权利要求1-11中任一项所述的方法。

24.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储用于设备执行的程序代码，所述程序代码包括用于实现权利要求1-11中任一项所述的方法。

...

【技术特征摘要】