【技术实现步骤摘要】
一种增量式语音命令词识别方法
本专利技术涉及基于深度神经网络和增量学习进行增量式语音识别的处理方法,更具体地,涉及一种基于深度学习的增量式语音命令词识别的方法。
技术介绍
近年来,深度学习迅猛发展,并被应用于图像识别和语音识别领域,取得了超越人类的水平。在许多场景中,迫切需要给机器下达命令,让机器遵循指令完成特定任务。由于完整的语音识别技术由科技巨头所掌握,而且需要联网环境才能进行语音识别,即使能够在本地运行,也需要耗费大量的计算资源。此外,在这些场景中,也不需要完整的语音识别能力,只需要让机器能够“听懂”某些特定的命令。在上述应用场景中,随着时间的推移,可能想要扩充指令,让机器既能识别原有指令,又能识别新添加的指令,这时候就需要一种增量式的语音命令词识别方法。
技术实现思路
专利技术目的:为了满足在某些场景中需要给机器下达指令的需求,同时支持增加新的指令,且无需联网或者向科技公司购买语音识别服务就能在本地进行语音命令词识别。为了解决上述技术问题,本专利技术公开了一种增量式语音命令 ...
【技术保护点】
1.一种增量式语音命令词识别方法,其特征在于,包括如下步骤:/n步骤1,判断本次构建的语音命令词识别模型是否需要基于现有语音命令词识别模型进行增量式构建,如果需要,转步骤2;如果不需要,转步骤3;所述本次构建的语音命令词识别模型是新模型,现有语音命令词识别模型是旧模型;/n步骤2,定义包含旧模型的命令词和新添加的命令词的命令词集合
【技术特征摘要】
1.一种增量式语音命令词识别方法,其特征在于,包括如下步骤:
步骤1,判断本次构建的语音命令词识别模型是否需要基于现有语音命令词识别模型进行增量式构建,如果需要,转步骤2;如果不需要,转步骤3;所述本次构建的语音命令词识别模型是新模型,现有语音命令词识别模型是旧模型;
步骤2,定义包含旧模型的命令词和新添加的命令词的命令词集合其中,当1≤i≤n1时,cmdi表示源自于旧模型的命令词,数量为n1;当n1≤i≤n2时,cmdi表示新添加的命令词,数量为n2;
步骤3,定义只包含新添加的命令词的命令词集合其中,cmdi,表示第i条命令,1≤i≤n2,n2表示命令条数,定义n1=0表示命令词集合中没有旧模型的命令;
步骤4,构建输入为语音数据,输出为预测类别的深度神经网络模型,形式化为y=Fθ(x),其中x表示输入的语音数据,y表示模型预测的类别,F表示语音命令词识别模型,θ表示模型的参数,所述深度神经网络模型即为本次构建的语音命令词识别模型;
步骤5,获取训练数据,训练语音命令词识别模型,得到训练好的语音命令词识别模型;
步骤6,从训练数据中选取一部分数据进入样本池。
2.根据权利要求1所述的方法,其特征在于,步骤1包括:
当需要向现有命令词识别模型中添加新的命令时,采用增量式方法构建新的语音命令词模型,这里增量的含义为,构建的新模型保留旧模型对现有命令词的识别能力,同时能够对新添加的命令词进行识别。
3.根据权利要求2所述的方法,其特征在于,步骤4中,所述构建输入为语音数据,输出为预测类别的深度神经网络模型,具体包含以下步骤:
首先对输入语音数据提取梅尔倒谱系数MFCC,采用一层神经网络提取所述梅尔倒谱系数MFCC,记为MFCC层;
接着是两层卷积神经网络CNN;
接下来是两层循环神经网络LSTM;
再接着是注意力机制层,注意力机制表示为ouput=Dot(input,score(input)),这里的input表示输入,output表示输出,Dot表示点积,score表示对input计算的注意力分数;
模型的最后部分是三个全连接层,最后一层的激活函数为softmax;softmax是一个函数,其计算方式为这里zi,1≤i≤n1+n2表示该函数的输入,表示命令词的类别数,σ(zi)表示输入数据的类别属于第i...
【专利技术属性】
技术研发人员:申富饶,刘凤山,赵健,李俊,
申请(专利权)人:南京大学,南京和光智能制造研究院有限公司,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。