基于双模型识别的语音领域命令理解方法技术

技术编号:20078053 阅读:45 留言:0更新日期:2019-01-15 01:33
本发明专利技术涉及一种基于双模型识别的语音领域命令理解方法,外部输入话语先经循环神经网络模型处理并进行语音意图的判断,在得出判断结果后再经条件随机场模型生成目标序列标签,从而提取出语音实体,所述条件随机场模型再向后处理单元输出所提取到的语音试题的数据,生成最终的控制指令。本发明专利技术中的循环神经网络模型的目标是为判断用户的话语是否表达了一个语音领域的意图,如此能够提高识别准确性,降低识别出错率。

Command Understanding Method in Speech Domain Based on Double Model Recognition

The present invention relates to a method of Command Understanding in speech domain based on dual-model recognition. The input speech is processed by a cyclic neural network model and the speech intent is judged. After the judgement result is obtained, the target sequence label is generated by a conditional random field model, and the speech entity is extracted. The conditional random field model outputs the extracted speech to the post-processing unit. The final control instructions are generated from the test data. The objective of the cyclic neural network model in the present invention is to determine whether the user's speech expresses an intention in the speech field, so as to improve the recognition accuracy and reduce the recognition error rate.

【技术实现步骤摘要】
基于双模型识别的语音领域命令理解方法
本专利技术涉及人机交互领域中的语言识别
,特别是涉及一张基于双模型识别的语音领域命令理解方法
技术介绍
对话系统是人机交互的一种相当重要的形式,也是自然语言处理过程中的一个关键的研究方向。在语音领域,能否正确解析出用户话语命令是完成用户指定任务的基础,在很多地方比如语音助手、语音平台都有很丰富的应用场景。对于用户某条话语,目前常使用的条件随机场(CRF)模型并不能很好的区分其是否表达了一个语音领域内的意图。CRF一般在序列标注、命名实体识别过程表现较好,但在识别语音实体之前,需要判断此用户话语是否表达语音意图,否则可能识别出错,甚至无法识别。如能够先进行语音意图的识别,可带来两个好处,一是若判断用户话语没有表达语音意图,则不需要进行后续实体提取操作,因为此时已经完成无语音意图解析操作,二是若对用户话语的语音意图不做判断的话,则很有可能一段用户话语没有表现语音意图,但是被错误的提取出了语音实体,比如“刘德华的老婆是谁”这句用户话语,若不先进行语音意图判断操作,则很有可能将“刘德华”识别成歌手实体,从而这句话也被解析成语音意图,而实际上这句话并没有表达语音领域的相关意图。
技术实现思路
本专利技术的目的是要提供一种基于双模型识别的语音领域命令理解方法,其中循环神经网络模型的目标是为判断用户的话语是否表达了一个语音领域的意图,如此能够提高识别准确性,降低识别出错率。为达到上述目的,本专利技术采用的技术方案是:本专利技术提供了一种基于双模型识别的语音领域命令理解方法,外部输入话语先经循环神经网络模型处理并进行语音意图的判断,在得出判断结果后再经条件随机场模型生成目标序列标签,从而提取出语音实体,所述条件随机场模型再向后处理单元输出所提取到的语音试题的数据,生成最终的控制指令。对于上述技术方案,申请人还有进一步的实施方案。进一步地,外部输入话语先经分子处理单元对其进行按字切分后形成初始训练集,再将初始训练集输入所述循环神经网络模型进行处理。更进一步地,在循环神经网络模型中进行处理的具体步骤如下:步骤A1:计算第t时刻的隐藏状态ht,ht由上一层的隐藏状态和本层的输入共同决定,ht=f(Uxt+Wht-1)其中,xt是第t时刻的输入,f为非线性的激活函数,U、W为变换矩阵;步骤A2:计算预测标签值S,S=sigmod(VhT),其中,V为变换矩阵,hT为序列最后一个时刻的隐藏状态;步骤A3:确定分类类型,根据预测标签值S确定分类,如S为正值则分类为正类,确认外部输入话语为语音意图,继续进入条件随机场模型进行处理,如S为负值则分类为负类,确认外部输入话语为非语音意图,退出此次处理。进一步地,在条件随机场模型中进行处理时,外部输入为句子序列,输出目标为句子标注序列标签,然后根据标注序列标签提取对应的语音实体。更进一步地,在条件随机场模型中进行处理的具体步骤如下:步骤B1:计算转移特征与状态特征的特征值fk(yi-1,yi,x,i),其中,tk(yi-1,yi,x,i)为转移特征,sl(yi,x,i)为状态特征,K1为转移特征的总数目,K2为状态特征的总数目,yi,yi-1是标注序列的标签,x是输入序列,i表示输入位置;步骤B2:对转移特征与状态特征在各个位置i求和,记作:其中i为序列长度;步骤B3:计算转移特征与状态特征的特征值fk(yi-1,yi,x,i)的权值wk,其中,λk为……,μl为……步骤B4:条件随机场可以表示成:其中对于训练样本集合要优化的目标为其中M为训练集数目大小,通过训练集,调整参数W从而使得优化目标取得最大值,模型训练完成之后,即特征向量权重W求解完成;步骤B5:对于新来输入序列x,通过求解得到预测标签序列y',y'即是目标序列标签,根据目标序列标签提取实体。进一步地,在后处理单元中,根据条件随机场模型预测的目标序列标签提取语音领域实体。由于上述技术方案运用,本专利技术与现有技术相比具有下列优点:本专利技术的基于双模型识别的语音领域命令理解方法,可通过循环神经网络(RNN)模型对用户话语进行判断,先判断是否含有语音领域相关意图,若判断该话语表达了语音领域相关意图,则使用条件随机场模型(CRF)进行相关参数的提取,若判断该话语没有表达语音领域相关意图,则判断结束,不需要进行后续操作,这样就能解决后面语音领域相关参数提取错误导致的意图判断错误的问题,如此能够提高识别准确性,降低识别出错率。附图说明后文将参照附图以示例性而非限制性的方式详细描述本专利技术的一些具体实施例。附图中相同的附图标记标示了相同或类似的部件或部分。本领域技术人员应该理解,这些附图未必是按比例绘制的。附图中:图1是根据本专利技术一个实施例的语音领域命令理解方法的处理流程示意图。具体实施方式下面将结合附图对本专利技术的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。在本专利技术的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本专利技术和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本专利技术的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,下面所描述的本专利技术不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。本实施例描述了一种基于双模型识别的语音领域命令理解方法,外部输入话语先经循环神经网络模型处理并进行语音意图的判断,在得出判断结果后再经条件随机场模型生成目标序列标签,从而提取出语音实体,所述条件随机场模型再向后处理单元输出所提取到的语音试题的数据,生成最终的控制指令。外部输入话语先经分子处理单元对其进行按字切分后形成初始训练集,再将初始训练集输入所述循环神经网络模型进行处理,在循环神经网络模型中进行处理的具体步骤如下:步骤A1:计算第t时刻的隐藏状态ht,ht由上一层的隐藏状态和本层的输入共同决定,ht=f(Uxt+Wht-1)其中,xt是第t时刻的输入,f为非线性的激活函数,U、W为变换矩阵;步骤A2:计算预测标签值S,S=sigmod(VhT),其中,V为变换矩阵,hT为序列最后一个时刻的隐藏状态;步骤A3:确定分类类型,根据预测标签值S确定分类,如S为正值则分类为正类,确认外部输入话语为语音意图,继续进入条件随机场模型进行处理,如S为负值则分类为负类,确认外部输入话语为非语音意图,退出此次处理。进一步地,在条件随机场模型中进行处理时,外部输入为句子序列,输出目标为句子标注序列标签,然后根据标注序列标签提取对应的语音实体。更进一步地,在条件随机场模型中进行处理的具体步骤如下:步骤B1:计算转移特征与状态特征的特征值fk(yi-1,yi,x,i),其中,tk(yi-1,yi,x,i)为转移特征,sl(yi,x,i)为状态特征,K1为转移特征的总数目,K2为状态特征的总数目,yi,yi-1是标注序列的标签,x是输入序列,本文档来自技高网...

【技术保护点】
1.一种基于双模型识别的语音领域命令理解方法,其特征在于,外部输入话语先经循环神经网络模型处理并进行语音意图的判断,在得出判断结果后再经条件随机场模型生成目标序列标签,从而提取出语音实体,所述条件随机场模型再向后处理单元输出所提取到的语音试题的数据,生成最终的控制指令。

【技术特征摘要】
1.一种基于双模型识别的语音领域命令理解方法,其特征在于,外部输入话语先经循环神经网络模型处理并进行语音意图的判断,在得出判断结果后再经条件随机场模型生成目标序列标签,从而提取出语音实体,所述条件随机场模型再向后处理单元输出所提取到的语音试题的数据,生成最终的控制指令。2.根据权利要求1所述的基于双模型识别的语音领域命令理解方法,其特征在于,外部输入话语先经分子处理单元对其进行按字切分后形成初始训练集,再将初始训练集输入所述循环神经网络模型进行处理。3.根据权利要求2所述的基于双模型识别的语音领域命令理解方法,其特征在于,在循环神经网络模型中进行处理的具体步骤如下:步骤A1:计算第t时刻的隐藏状态ht,ht由上一层的隐藏状态和本层的输入共同决定,ht=f(Uxt+Wht-1)其中,xt是第t时刻的输入,f为非线性的激活函数,U、W为变换矩阵;步骤A2:计算预测标签值S,S=sigmod(VhT),其中,V为变换矩阵,hT为序列最后一个时刻的隐藏状态;步骤A3:确定分类类型,根据预测标签值S确定分类,如S为正值则分类为正类,确认外部输入话语为语音意图,继续进入条件随机场模型进行处理,如S为负值则分类为负类,确认外部输入话语为非语音意图,退出此次处理。4.根据权利要求1所述的基于双模型识别的语音领域命令理解方法,...

【专利技术属性】
技术研发人员:段礼强李贤乐雨泉
申请(专利权)人:苏州亭云智能科技有限公司
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1