一种意图识别模型的训练方法、意图识别方法及装置制造方法及图纸

技术编号:36929240 阅读:41 留言:0更新日期:2023-03-22 18:52
本公开提供了一种意图识别模型的训练方法、意图识别方法及装置,涉及计算机技术领域,尤其涉及人工智能、自然语言处理以及深度学习等技术领域。具体实现方案为:获取多个训练文本中每个训练文本的文本序列;将该每个训练文本的文本序列输入初始意图识别模型中包括的编码层,得到该每个训练文本的目标特征,该每个训练文本的目标特征用于表征该每个训练文本中包括的每个词与该每个训练文本中包括的其他词之间的关联关系;将该每个训练文本的目标特征输入该初始意图识别模型中包括的网络层,得到该每个训练文本的预测结果;基于目标损失函数更新该初始意图识别模型中包括的参数,得到目标意图识别模型。得到目标意图识别模型。得到目标意图识别模型。

【技术实现步骤摘要】
一种意图识别模型的训练方法、意图识别方法及装置


[0001]本公开涉及计算机
,尤其涉及人工智能、自然语言处理以及深度学习等
具体提供了一种意图识别模型的训练方法、意图识别方法及装置。

技术介绍

[0002]目前,可以基于神经网络在服务器中构建意图识别模型,基于该意图识别模型能够对文本进行意图识别,具体为识别该文本中是否包含意图。

技术实现思路

[0003]本公开提供了一种准确度更高的意图识别模型的训练方法、意图识别方法及装置。
[0004]根据本公开的一方面,提供了一种意图识别模型的训练方法。包括:获取多个训练文本中每个训练文本的文本序列,该每个训练文本的文本序列包括:该每个训练文本中包括的每个词的词向量;将该每个训练文本的文本序列输入初始意图识别模型中包括的编码层,得到该每个训练文本的目标特征,该每个训练文本的目标特征用于表征该每个训练文本中包括的每个词与该每个训练文本中包括的其他词之间的关联关系;将该每个训练文本的目标特征输入该初始意图识别模型中包括的网络层,得到该每个训练文本的预测结果;基于目标损失函数更新该初始意图识别模型中包括的参数,得到目标意图识别模型,该目标意图识别模型用于预测一个文本中是否包含意图,该目标损失函数用于表征该每个训练文本的预测结果与该每个训练文本的真实结果之间的不一致程度。
[0005]根据本公开的另一方面,提供了一种意图识别方法。包括:获取待识别文本的文本序列,该待识别文本的文本序列包括:该待识别文本中包括的每个词的词向量;将该待识别文本的文本序列输入目标意图识别模型中的编码层,得到该待识别文本的目标特征,该待识别文本的目标特征用于表征该待识别文本中包括的每个词与该待识别文本中包括的其他词之间的关联关系,该目标意图识别模型用于识别一个文本中是否包含意图;将该待识别文本的目标特征输入该目标意图识别模型中包括的网络层,确定该待识别文本中是否包含意图。
[0006]根据本公开的另一方面,提供了一种意图识别模型的训练装置。包括:获取模块和处理模块;该获取模块,用于获取多个训练文本中每个训练文本的文本序列,该每个训练文本的文本序列包括:该每个训练文本中包括的每个词的词向量;该处理模块,用于将该每个训练文本的文本序列输入初始意图识别模型中包括的编码层,得到该每个训练文本的目标特征,该每个训练文本的目标特征用于表征该每个训练文本中包括的每个词与该每个训练文本中包括的其他词之间的关联关系;该处理模块,还用于将该每个训练文本的目标特征输入该初始意图识别模型中包括的网络层,得到该每个训练文本的预测结果;该处理模块,还用于基于目标损失函数更新该初始意图识别模型中包括的参数,得到目标意图识别模型,该目标意图识别模型用于预测一个文本中是否包含意图,该目标损失函数用于表征该
每个训练文本的预测结果与该每个训练文本的真实结果之间的不一致程度。
[0007]根据本公开的另一方面,提供了一种意图识别装置。包括:获取模块、处理模块以及确定模块;该获取模块,用于获取待识别文本的文本序列,该待识别文本的文本序列包括:该待识别文本中包括的每个词的词向量;该处理模块,用于将该待识别文本的文本序列输入目标意图识别模型中的编码层,得到该待识别文本的目标特征,该待识别文本的目标特征用于表征该待识别文本中包括的每个词与该待识别文本中包括的其他词之间的关联关系,该目标意图识别模型用于识别一个文本中是否包含意图;该确定模块,用于将该待识别文本的目标特征输入该目标意图识别模型中包括的网络层,确定该待识别文本中是否包含意图。
[0008]根据本公开的另一方面,提供了一种电子设备。包括:至少一个处理器,以及与该至少一个处理器通信连接的存储器;其中,该存储器存储有可被该至少一个处理器执行的指令,该指令被该至少一个处理器执行,以使该至少一个处理器能够执行本公开提供的意图识别模型的训练方法或者执行本公开提供的意图识别方法。
[0009]根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,该计算机指令用于使该计算机执行本公开提供的意图识别模型的训练方法或者执行本公开提供的意图识别方法。
[0010]根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,该计算机程序在被处理器执行时实现本公开提供的意图识别模型的训练方法或者实现本公开提供的意图识别方法。
[0011]基于上述任一方面,本公开中,电子设备可以获取多个训练文本中每个训练文本的文本序列;然后,电子设备可以将该每个训练文本的文本序列输入初始意图识别模型中包括的编码层,得到该每个训练文本的目标特征;并且将该每个训练文本的目标特征输入该初始意图识别模型中包括的网络层,得到该每个训练文本的预测结果;之后,电子设备可以基于该目标损失函数更新该初始意图识别模型中包括的参数,得到目标意图识别模型。本公开中,由于一个训练文本的目标特征用于表征该训练文本中包括的每个词与该训练文本中包括的其他词之间的关联关系,该训练文本的目标特征中融合了该训练文本中包括的每个词的语义信息,能够准确地表征出该训练文本的语义信息。如此,电子设备基于目标损失函数(即多个训练文本中每个训练文本的预测结果与该每个训练文本的真实结果之间的不一致程度)更新初始意图识别模型中包括的参数,能够生成准确度更高的目标意图识别模型,该目标意图识别模型能够以较高的准确率识别出长篇幅文本中是否包含意图(或关键片段)。
[0012]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0013]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0014]图1示出了本公开实施例提供的一种意图识别模型的训练方法的流程示意图;
[0015]图2示出了本公开实施例提供的另一种意图识别模型的训练方法的流程示意图;
[0016]图3示出了本公开实施例提供的一种构造兴趣池的示意图;
[0017]图4示出了本公开实施例提供的一种得到交叉熵损失的示意图;
[0018]图5示出了本公开实施例提供的一种意图识别方法的流程示意图;
[0019]图6出了本公开实施例提供的一种意图识别模型的训练装置的结构示意图;
[0020]图7出了本公开实施例提供的一种意图识别装置的结构示意图;
[0021]图8示出了本公开实施例提供的一种电子设备的结构示意图。
具体实施方式
[0022]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0023]需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种意图识别模型的训练方法,包括:获取多个训练文本中每个训练文本的文本序列,所述每个训练文本的文本序列包括:所述每个训练文本中包括的每个词的词向量;将所述每个训练文本的文本序列输入初始意图识别模型中包括的编码层,得到所述每个训练文本的目标特征,所述每个训练文本的目标特征用于表征所述每个训练文本中包括的每个词与所述每个训练文本中包括的其他词之间的关联关系;将所述每个训练文本的目标特征输入所述初始意图识别模型中包括的网络层,得到所述每个训练文本的预测结果;基于目标损失函数更新所述初始意图识别模型中包括的参数,得到目标意图识别模型,所述目标意图识别模型用于预测一个文本中是否包含意图,所述目标损失函数用于表征所述每个训练文本的预测结果与所述每个训练文本的真实结果之间的不一致程度。2.根据权利要求1所述的方法,还包括:确定所述每个训练文本中是否存在关键片段,所述关键片段用于表征用户感兴趣的片段;当所述每个训练文本中存在所述关键片段时,确定所述每个训练文本的真实结果为包含意图;或者,当所述每个训练文本中未存在所述关键片段时,确定所述每个训练文本的真实结果为不包含意图;基于所述每个训练文本的预测结果以及所述每个训练文本的真实结果,确定所述目标损失函数。3.根据权利要求1或2所述的方法,所述每个训练文本的文本序列还包括开始标签,所述编码层包括多个子编码层,其中,所述将所述每个训练文本的文本序列输入初始意图识别模型中包括的编码层,得到所述每个训练文本的目标特征,包括:将第一训练文本的文本序列分别输入所述多个子编码层中的每个子编码层,得到所述第一训练文本在所述每个子编码层的多头注意力结果,所述第一训练文本为所述多个训练文本中的一个,所述第一训练文本在一个子编码层的多头注意力结果包括所述第一训练文本中包括的每个词在所述子编码层的表示以及所述第一训练文本中包括的开始标签在所述子编码层的表示;将所述第一训练文本中包括的开始标签在所述每个子编码层的表示,确定为所述第一训练文本在所述每个子编码层的输出结果;对所述第一训练文本在所述每个子编码层的输出结果进行预设操作,得到所述第一训练文本的目标特征,所述预设操作包括拼接操作、卷积操作以及池化操作中的一个或多个。4.根据权利要求3所述的方法,所述编码层包括多个注意力头,其中,所述将第一训练文本的文本序列分别输入所述多个子编码层中的每个子编码层,得到所述第一训练文本在所述每个子编码层的多头注意力结果,包括:将所述第一训练文本的文本序列分别输入所述每个子编码层,确定在所述每个子编码层中所述第一训练文本基于所述多个注意力头中的每个注意力头得到的查询向量、在所述每个子编码层中所述第一训练文本基于所述每个注意力头得到的键向量以及在所述每个子编码层中所述第一训练文本基于所述每个注意力头得到的值向量;
根据在所述每个子编码层中所述第一训练文本基于所述每个注意力头得到的查询向量、在所述每个子编码层中所述第一训练文本基于所述每个注意力头得到的键向量以及在所述每个子编码层中所述第一训练文本基于所述每个注意力头得到的值向量,确定在所述每个子编码层中所述第一训练文本基于所述每个注意力头得到的单头注意力结果;对在所述每个子编码层中所述第一训练文本基于所述每个注意力头得到的单头注意力结果进行拼接操作,得到所述第一训练文本在所述每个子编码层的多头注意力结果。5.一种意图识别方法,包括:获取待识别文本的文本序列,所述待识别文本的文本序列包括:所述待识别文本中包括的每个词的词向量;将所述待识别文本的文本序列输入目标意图识别模型中的编码层,得到所述待识别文本的目标特征,所述待识别文本的目标特征用于表征所述待识别文本中包括的每个词与所述待识别文本中包括的其他词之间的关联关系,所述目标意图识别模型用于识别一个文本中是否包含意图;将所述待识别文本的目标特征输入所述目标意图识别模型中包括的网络层,确定所述待识别文本中是否包含意图。6.根据权利要求5所述的方法,所述待识别文本的文本序列还包括开始标签,所述编码层包括多个子编码层,其中,所述将所述待识别文本的文本序列输入目标意图识别模型中的编码层,得到所述待识别文本的目标特征,包括:将所述待识别文本的文本序列分别输入所述多个子编码层中的每个子编码层,得到所述待识别文本在所述每个子编码层的多头注意力结果,所述待识别文本在一个子编码层的多头注意力结果包括所述待识别文本中包括的每个词在所述子编码层的表示以及所述待识别文本中包括的开始标签在所述子编码层的表示;将所述待识别文本中包括的开始标签在所述每个子编码层的表示,确定为所述待识别文本在所述每个子编码层的输出结果;对所述待识别文本在所述每个子编码层的输出结果进行预设操作,得到所述待识别文本的目标特征,所述预设操作包括拼接操作、卷积操作以及池化操作中的一个或多个。7.根据权利要求6所述的方法,所述编码层包括多个注意力头,其中,所述将所述待识别文本的文本序列分别输入所述多个子编码层中的每个子编码层,得到所述待识别文本在所述每个子编码层的多头注意力结果,包括:将所述待识别文本的文本序列分别输入所述每个子编码层,确定在所述每个子编码层中所述待识别文本基于所述多个注意力头中的每个注意力头得到的查询向量、在所述每个子编码层中所述待识别文本基于所述每个注意力头得到的键向量以及在所述每个子编码层中所述待识别文本基于所述每个注意力头得到的值向量;根据在所述每个子编码层中所述待识别文本基于所述每个注意力头得到的查询向量、在所述每个子编码层中所述待识别文本基于所述每个注意力头得到的键向量以及在所述每个子编码层中所述待识别文本基于所述每个注意力头得到的值向量,确定在所述每个子编码层中所述待识别文本基于所述每个注意力头得到的单头注意力结果;对在所述每个子编码层中所述待识别文本基于所述每个注意力头得到的单头注意力结果进行拼接操作,得到所述待识别文本在所述每个子编码层的多头注意力结果。
8.一种意图识别模型的训练装置,包括:获取模块和处理模块;所述获取模块,用于获取多个训练文本中每个训练文本的文本序列,所述每个训练文本的文本序列包括:所述每个训练文本中包括的每个词的词向量;所述处理模块,用于将所述每个训练文本的文本序列输入初始意图识别模型中包括的编码层,得到所述每个训练文本的目标特征,所述每个训练文本的目标特征用于表征所述每个训练文本中包括的每个词与所述每个训练文本中包括的其他词之间的关联关系;所述处理模块,还用于将所述每个训练文本的目标特征输入所述...

【专利技术属性】
技术研发人员:和为何伯磊张楠陈坤斌李雅楠尉桢楷
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1