意图识别模型的训练方法及装置、意图识别方法及装置制造方法及图纸

技术编号:27318102 阅读:46 留言:0更新日期:2021-02-10 09:54
本公开提供了一种意图识别模型的训练方法及装置、意图识别方法及装置。其中,训练方法包括:获取对话语料中的问题

【技术实现步骤摘要】
意图识别模型的训练方法及装置、意图识别方法及装置


[0001]本公开涉及计算机
,更具体地,涉及一种意图识别模型的训练方法及训练装置、意图识别方法及意图识别装置、以及计算机系统和计算机可读存储介质。

技术介绍

[0002]随着计算机、互联网技术的快速发展,越来越多的智能化交互方式已逐渐深入日常生活。
[0003]智能化交互的一种体现在于,智能化产品或应用可以理解用户需求,并依据需求为用户提供适当的响应。例如在客服场景的问答系统中,可以根据用户输入的句子识别用户的意图,并为用户提供合适的回应。
[0004]但在实现本公开构思的过程中,专利技术人发现相关技术中至少存在如下问题,通过单一的任务数据训练得到模型,导致模型学习的表征缺乏一定泛化能力,以至于模型的意图识别性能较弱。

技术实现思路

[0005]有鉴于此,本公开提供了一种意图识别模型的训练方法及训练装置、意图识别方法及意图识别装置、以及计算机系统和计算机可读存储介质。
[0006]本公开的一个方面提供了一种意图识别模型的训练方法,包括:获取对话语料本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种意图识别模型的训练方法,包括:获取对话语料中的问题-问题对、问题-答案对和意图类别,其中,所述意图类别用于表征所述对话语料中的每轮句子的类别标签;根据所述问题-问题对构建问题-问题相似度标注数据集,根据所述问题-答案对构建问题-答案相似度标注数据集,根据所述对话语料中的每轮句子和所述每轮句子对应的类别标签构建意图识别数据集;根据所述问题-问题相似度标注数据集和所述问题-答案相似度标注数据集构建句子的相似度任务损失函数,根据所述意图识别数据集构建意图识别任务损失函数;以及根据所述问题-问题相似度标注数据集、所述问题-答案相似度标注数据集和所述意图识别数据集对所述句子的相似度任务损失函数和所述意图识别任务损失函数进行优化训练,得到所述意图识别模型。2.根据权利要求1所述的方法,其中,所述获取对话语料中的问题-问题对、问题-答案对包括:通过自动挖掘的方式从所述对话语料中获取所述问题-问题对和所述问题-答案对;在所述问题-问题对中的两个问题对应的答案相同的情况下,将所述问题-问题对的标签值配置为1;以及在所述问题-问题对中的两个问题对应的答案不同的情况下,将所述问题-问题对的标签值配置为0。3.根据权利要求2所述的方法,其中,根据所述问题-问题对构建问题-问题相似度标注数据集包括:在所述问题-问题对中的两个问题的相似度小于预设阈值,且所述问题-问题对的标签值为1的情况下,变更所述问题-问题对的标签值至0或丢弃所述问题-问题对;在所述问题-问题对中的两个问题的相似度大于预设阈值,且所述问题-问题对的标签值为0的情况下,变更所述问题-问题对的标签值至1或丢弃所述问题-问题对;以及根据所述问题-问题对及其标签构建所述问题-问题相似度标注数据集。4.根据权利要求1所述的方法,其中,根据所述问题-答案对构建问题-答案相似度标注数据集包括:获取两条问题-答案对:(q1,a1)和(q2,a2);在f(q1,q2)+f(a1,a2)<k的情况下,将所述两条问题-答案对中句子长度更长的问题-答案对的标签值配置为1,将所述两条问题-答案对中句子长度更短的问题-答案对的标签值配置为0,其中,q1表征以文本形式存储的第一问题,a1表征以文本形式存储的第一答案,q2表征以文本形式存储的第二问题,a2表征以文本形式存储的第二答案,f为编辑距离函数,k为过滤阈值;以及根据所述问题-答案对及其标签构建所述问题-答案相似度标注数据集。5.根据权利要求1所述的方法,其中,根据所述对话语料中的每轮句子和所述每轮句子对应的类别标签构建意图识别数据集包括:获取包含有n轮句子的目标对话;获取包含有t个窗口的滑窗,其中,t<n,t,n为正整数;通过所述滑窗对所述目标对话进行遍历,确定所述目标对话中的每轮句子对应的类别
标签;以及根据所述每轮句子和所述每轮句子对应的类别标签构建所述意图识别数据集。6.根据权利要求1所述的方法,其中,根据所述问题-问题相似度标注数据集和所述问题-答案相似度标注数据集构建句子的相似度任务损失函数为:loss
sim
(θ)=-[p*log(p
pred
)+(1-p)log(1-p
pred
)],其中:p
pred
=sigmod(dense
sim
),dense
sim
=g(V
cls
W
sim
+b
sim
),其中,loss
sim
(θ)表示所述句子的相似度任务损失函数,θ表示所述句子的相似度任务损失函数中的待优化参数,p表示所述问题-问题对或所述问题-答案对的真实相似度标签,p
pred
表示所述问题-问题对或所述问题-答案对的预测相似度标签,V
cls
表示所述问题-问题对或所述问题-答案对,d
c...

【专利技术属性】
技术研发人员:乐雨泉赵宇明陈蒙
申请(专利权)人:北京京东世纪贸易有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1