The invention discloses a multi-example keyword detection method based on Multi-task neural network, belonging to the technical field of speech signal processing. The method includes the following steps: training bottleneck depth neural network on multilingual data sets, extracting fbank features from audio frames of target data sets, extracting bottleneck features from target data sets, using training sets, training a HMM model for each key word using bottleneck features of key words, and obtaining The frame level status label is used to train a filler model with all non-keyword bottleneck features; the multi-task DNN acoustic model is trained with bottleneck features; the acoustic scores of test set audio are obtained, and the keyword detection results are obtained by Viterbi decoding. The multi-task technique of the invention can effectively improve the low resource condition and obviously improve the performance of multi-example keyword detection.
【技术实现步骤摘要】
一种基于多任务神经网络的多样例关键词检测方法
本专利技术属于语音信号处理
,特别涉及一种基于多任务神经网络的多样例关键词检测方法。
技术介绍
语音关键词检测技术作为处理海量音频数据的人工智能技术之一,为人们快速从海量语音数据中检索出预先定义的关键词提供了解决方案。当前,根据关键词检索对象的不同,关键词检测可以分为两类:基于文本的关键词检测,关键词以文本形式给出;基于样例的关键词检测,关键词以语音片段(样例)的形式给出。在算法方面,文本关键词检测的主流技术基于LVCSR(大词汇量连续语音识别)和文本匹配;样例关键词检测的主流技术则基于DTW(动态时间规整)模板匹配。实际的应用场景中,在处理资源匮乏的语言或使用范围狭小的方言,甚至语种未知的情况下,基于文本的方法难以取得良好的效果。在此低资源条件下,基于样例的方法更为适用,但当每个关键词的样例数目增加到几十量级时,模板匹配方法带来的性能提升有限。
技术实现思路
本专利技术的目的是提出一种基于多任务神经网络的多样例关键词检测方法,其特征在于,所述方法具体包括以下步骤:步骤1:在多语言的数据集上训练瓶颈(bottleneck)深度神经网络(DNN);步骤2:对目标数据集音频逐帧提取频带过滤fbank(Filter-bank,)特征;步骤3:利用bottleneck-DNN提取目标数据集的瓶颈bottleneck特征;步骤4:使用训练集,利用关键词的bottleneck特征为每一个关键词,分别训练一个隐马尔科夫模型(HMM),并获取其帧级别状态标签,利用所有非关键词的bottleneck特征训练一个填充词模型;步骤 ...
【技术保护点】
1.一种基于多任务神经网络的多样例关键词检测方法,其特征在于,所述方法具体包括以下步骤:步骤1:在多语言的数据集上训练瓶颈(bottleneck)深度神经网络(DNN);步骤2:对目标数据集音频逐帧提取频带过滤fbank(Filter‑bank)特征;步骤3:利用bottleneck‑DNN提取目标数据集的bottleneck特征;步骤4:使用训练集,利用关键词的bottleneck特征为每一个关键词,分别训练一个隐马尔科夫模型(HMM),并获取其帧级别状态标签,利用所有非关键词的bottleneck特征训练一个填充词模型;步骤5:设计主任务和辅助任务,利用bottleneck特征进行多任务DNN声学模型训练;步骤6:利用步骤5中训练的多任务深度神经网络声学模型获取测试集音频的声学分数,应用维特比解码得到关键词检测结果。
【技术特征摘要】
1.一种基于多任务神经网络的多样例关键词检测方法,其特征在于,所述方法具体包括以下步骤:步骤1:在多语言的数据集上训练瓶颈(bottleneck)深度神经网络(DNN);步骤2:对目标数据集音频逐帧提取频带过滤fbank(Filter-bank)特征;步骤3:利用bottleneck-DNN提取目标数据集的bottleneck特征;步骤4:使用训练集,利用关键词的bottleneck特征为每一个关键词,分别训练一个隐马尔科夫模型(HMM),并获取其帧级别状态标签,利用所有非关键词的bottleneck特征训练一个填充词模型;步骤5:设计主任务和辅助任务,利用bottleneck特征进行多任务DNN声学模型训练;步骤6:利用步骤5中训练的多任务深度神经网络声学模型获取测试集音频的声学分数,应用维特比解码得到关键词检测结果。2.根据权利要求1所述基于多任务神经网络的多样例关键词检测方法,其特征在于,所述步骤1中,DNN包含多个隐层,其中的一个隐层称为bottleneck层,该隐层与其他隐层相比节点数少;该bottleneck层激活函数为线性,其余隐层激活函数为S形(sigmoid)函数;在多语言数据集上进行训练时,采用混合音素集方法或多任务学习方法。3.根据权利要求1所述基于多任务神经网络的多样例关键词检测方法,其特征在于,所述步骤3中,将fbank特征进行前后5帧扩展输入bottleneck-DNN,以利用上下文信息,bottleneck层的输出即为bottleneck特征。4.根据权利要求1所述基于多任务神经网络的多样例关键词检测方法,其特征在于,所述步骤4中,关键词HMM包含多个隐状态,其帧级别状态标签采用基于GMM-HMM的EM算法强制对齐得到;填充词模型只有1个状态,其帧级别状态标签直接得到;其中帧级别状态标签是采用基于GMM-HMM的EM算法强制对齐得到的,具体步骤如下:步骤401:统计第k个关键词的平均帧数根据时长信息确定每个关键词的状态数目其中τ为每个状态持续的帧数,可取为10;步骤402:将第i个训练样例的特...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。