【技术实现步骤摘要】
一种意图识别模型的训练方法、意图识别方法及装置
[0001]本公开涉及计算机
,尤其涉及人工智能、自然语言处理以及深度学习等
具体提供了一种意图识别模型的训练方法、意图识别方法及装置。
技术介绍
[0002]目前,可以基于神经网络在服务器中构建意图识别模型,基于该意图识别模型能够对文本进行意图识别,具体为识别该文本中是否包含意图。
技术实现思路
[0003]本公开提供了一种准确度更高的意图识别模型的训练方法、意图识别方法及装置。
[0004]根据本公开的一方面,提供了一种意图识别模型的训练方法。包括:获取多个训练文本中每个训练文本的文本序列,该每个训练文本的文本序列包括:该每个训练文本中包括的每个词的词向量;将该每个训练文本的文本序列输入初始意图识别模型中包括的编码层,得到该每个训练文本的目标特征,该每个训练文本的目标特征用于表征该每个训练文本中包括的每个词与该每个训练文本中包括的其他词之间的关联关系;将该每个训练文本的目标特征输入该初始意图识别模型中包括的网络层,得到该每个训练文本的预测结果;基于目标损失函数更新该初始意图识别模型中包括的参数,得到目标意图识别模型,该目标意图识别模型用于预测一个文本中是否包含意图,该目标损失函数用于表征该每个训练文本的预测结果与该每个训练文本的真实结果之间的不一致程度。
[0005]根据本公开的另一方面,提供了一种意图识别方法。包括:获取待识别文本的文本序列,该待识别文本的文本序列包括:该待识别文本中包括的每个词的词向量;将该待识别文本 ...
【技术保护点】
【技术特征摘要】
1.一种意图识别模型的训练方法,包括:获取多个训练文本中每个训练文本的文本序列,所述每个训练文本的文本序列包括:所述每个训练文本中包括的每个词的词向量;将所述每个训练文本的文本序列输入初始意图识别模型中包括的编码层,得到所述每个训练文本的目标特征,所述每个训练文本的目标特征用于表征所述每个训练文本中包括的每个词与所述每个训练文本中包括的其他词之间的关联关系;将所述每个训练文本的目标特征输入所述初始意图识别模型中包括的网络层,得到所述每个训练文本的预测结果;基于目标损失函数更新所述初始意图识别模型中包括的参数,得到目标意图识别模型,所述目标意图识别模型用于预测一个文本中是否包含意图,所述目标损失函数用于表征所述每个训练文本的预测结果与所述每个训练文本的真实结果之间的不一致程度。2.根据权利要求1所述的方法,还包括:确定所述每个训练文本中是否存在关键片段,所述关键片段用于表征用户感兴趣的片段;当所述每个训练文本中存在所述关键片段时,确定所述每个训练文本的真实结果为包含意图;或者,当所述每个训练文本中未存在所述关键片段时,确定所述每个训练文本的真实结果为不包含意图;基于所述每个训练文本的预测结果以及所述每个训练文本的真实结果,确定所述目标损失函数。3.根据权利要求1或2所述的方法,所述每个训练文本的文本序列还包括开始标签,所述编码层包括多个子编码层,其中,所述将所述每个训练文本的文本序列输入初始意图识别模型中包括的编码层,得到所述每个训练文本的目标特征,包括:将第一训练文本的文本序列分别输入所述多个子编码层中的每个子编码层,得到所述第一训练文本在所述每个子编码层的多头注意力结果,所述第一训练文本为所述多个训练文本中的一个,所述第一训练文本在一个子编码层的多头注意力结果包括所述第一训练文本中包括的每个词在所述子编码层的表示以及所述第一训练文本中包括的开始标签在所述子编码层的表示;将所述第一训练文本中包括的开始标签在所述每个子编码层的表示,确定为所述第一训练文本在所述每个子编码层的输出结果;对所述第一训练文本在所述每个子编码层的输出结果进行预设操作,得到所述第一训练文本的目标特征,所述预设操作包括拼接操作、卷积操作以及池化操作中的一个或多个。4.根据权利要求3所述的方法,所述编码层包括多个注意力头,其中,所述将第一训练文本的文本序列分别输入所述多个子编码层中的每个子编码层,得到所述第一训练文本在所述每个子编码层的多头注意力结果,包括:将所述第一训练文本的文本序列分别输入所述每个子编码层,确定在所述每个子编码层中所述第一训练文本基于所述多个注意力头中的每个注意力头得到的查询向量、在所述每个子编码层中所述第一训练文本基于所述每个注意力头得到的键向量以及在所述每个子编码层中所述第一训练文本基于所述每个注意力头得到的值向量;
根据在所述每个子编码层中所述第一训练文本基于所述每个注意力头得到的查询向量、在所述每个子编码层中所述第一训练文本基于所述每个注意力头得到的键向量以及在所述每个子编码层中所述第一训练文本基于所述每个注意力头得到的值向量,确定在所述每个子编码层中所述第一训练文本基于所述每个注意力头得到的单头注意力结果;对在所述每个子编码层中所述第一训练文本基于所述每个注意力头得到的单头注意力结果进行拼接操作,得到所述第一训练文本在所述每个子编码层的多头注意力结果。5.一种意图识别方法,包括:获取待识别文本的文本序列,所述待识别文本的文本序列包括:所述待识别文本中包括的每个词的词向量;将所述待识别文本的文本序列输入目标意图识别模型中的编码层,得到所述待识别文本的目标特征,所述待识别文本的目标特征用于表征所述待识别文本中包括的每个词与所述待识别文本中包括的其他词之间的关联关系,所述目标意图识别模型用于识别一个文本中是否包含意图;将所述待识别文本的目标特征输入所述目标意图识别模型中包括的网络层,确定所述待识别文本中是否包含意图。6.根据权利要求5所述的方法,所述待识别文本的文本序列还包括开始标签,所述编码层包括多个子编码层,其中,所述将所述待识别文本的文本序列输入目标意图识别模型中的编码层,得到所述待识别文本的目标特征,包括:将所述待识别文本的文本序列分别输入所述多个子编码层中的每个子编码层,得到所述待识别文本在所述每个子编码层的多头注意力结果,所述待识别文本在一个子编码层的多头注意力结果包括所述待识别文本中包括的每个词在所述子编码层的表示以及所述待识别文本中包括的开始标签在所述子编码层的表示;将所述待识别文本中包括的开始标签在所述每个子编码层的表示,确定为所述待识别文本在所述每个子编码层的输出结果;对所述待识别文本在所述每个子编码层的输出结果进行预设操作,得到所述待识别文本的目标特征,所述预设操作包括拼接操作、卷积操作以及池化操作中的一个或多个。7.根据权利要求6所述的方法,所述编码层包括多个注意力头,其中,所述将所述待识别文本的文本序列分别输入所述多个子编码层中的每个子编码层,得到所述待识别文本在所述每个子编码层的多头注意力结果,包括:将所述待识别文本的文本序列分别输入所述每个子编码层,确定在所述每个子编码层中所述待识别文本基于所述多个注意力头中的每个注意力头得到的查询向量、在所述每个子编码层中所述待识别文本基于所述每个注意力头得到的键向量以及在所述每个子编码层中所述待识别文本基于所述每个注意力头得到的值向量;根据在所述每个子编码层中所述待识别文本基于所述每个注意力头得到的查询向量、在所述每个子编码层中所述待识别文本基于所述每个注意力头得到的键向量以及在所述每个子编码层中所述待识别文本基于所述每个注意力头得到的值向量,确定在所述每个子编码层中所述待识别文本基于所述每个注意力头得到的单头注意力结果;对在所述每个子编码层中所述待识别文本基于所述每个注意力头得到的单头注意力结果进行拼接操作,得到所述待识别文本在所述每个子编码层的多头注意力结果。
8.一种意图识别模型的训练装置,包括:获取模块和处理模块;所述获取模块,用于获取多个训练文本中每个训练文本的文本序列,所述每个训练文本的文本序列包括:所述每个训练文本中包括的每个词的词向量;所述处理模块,用于将所述每个训练文本的文本序列输入初始意图识别模型中包括的编码层,得到所述每个训练文本的目标特征,所述每个训练文本的目标特征用于表征所述每个训练文本中包括的每个词与所述每个训练文本中包括的其他词之间的关联关系;所述处理模块,还用于将所述每个训练文本的目标特征输入所述...
【专利技术属性】
技术研发人员:和为,何伯磊,张楠,陈坤斌,李雅楠,尉桢楷,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。