训练未知意图检测模型的方法、未知意图检测方法及装置制造方法及图纸

技术编号:36557086 阅读:10 留言:0更新日期:2023-02-04 17:11
本申请实施例公开了一种训练未知意图检测模型的方法、未知意图检测方法及装置,涉及人工智能技术领域。其中训练未知意图检测模型的方法包括:利用特征提取模型,获取多个未知意图样本的特征表示以及多个已知意图样本的特征表示;利用多个已知意图样本的特征表示和多个未知意图样本的特征表示构建全连接图,其中,分别将已知意图样本的特征表示和未知意图样本的特征表示作为全连接图中的节点,节点之间边的权重依据该边两端节点之间的相似度确定;利用全连接图确定各未知意图样本的软标签,软标签为未知意图样本属于未知意图的概率值;利用各未知意图样本的软标签训练分类器,得到未知意图检测模型。本申请能够提高未知意图检测的准确性。图检测的准确性。图检测的准确性。

【技术实现步骤摘要】
训练未知意图检测模型的方法、未知意图检测方法及装置


[0001]本申请涉及人工智能
,特别是涉及一种训练未知意图检测模型的方法、未知意图检测方法及装置。

技术介绍

[0002]意图分类在智能对话系统中起着至关重要的作用,只有识别出用户意图才能够为用户提供准确的服务。然而在实际场景中,已有的意图类别往往无法覆盖所有的用户意图,随着时间地推移会产生新的用户意图。如果无法发现这些新产生的意图,智能对话系统会误将其划分至已有的意图类型,从而为用户提供不满足用户需求的服务,给用户带来不好的体验,因此未知意图检测成为一个重要的任务。

技术实现思路

[0003]有鉴于此,本申请提供了一种训练未知意图检测模型的方法、未知意图检测方法及装置,用以实现未知意图检测。
[0004]本申请提供了如下方案:
[0005]第一方面,提供了一种训练未知意图检测模型的方法,所述方法包括:
[0006]获取多个未知意图样本的特征表示以及多个已知意图样本的特征表示;
[0007]利用所述多个已知意图样本的特征表示和所述多个未知意图样本的特征表示构建全连接图,其中,分别将已知意图样本的特征表示和未知意图样本的特征表示作为所述全连接图中的节点,节点之间边的权重依据该边两端节点之间的相似度确定;
[0008]利用所述全连接图确定各未知意图样本的软标签,所述软标签为未知意图样本属于未知意图的概率值;
[0009]利用所述各未知意图样本的软标签训练分类器,得到未知意图检测模型。
[0010]根据本申请实施例中一可实现的方式,所述获取多个未知意图样本的特征表示包括:
[0011]从已知意图样本集中获取多个已知意图样本;
[0012]通过对多个已知意图样本添加扰动,获取多个未知意图样本的特征表示。
[0013]根据本申请实施例中一可实现的方式,通过对多个已知意图样本添加扰动,获取多个未知意图样本的特征表示包括:
[0014]利用特征提取模型分别对多个已知意图样本进行特征提取,得到各已知意图样本的特征表示;对不同意图类别的已知意图样本的特征表示进行混合,得到未知意图样本的特征表示;或者,
[0015]将多个已知意图样本和随机噪声作为输入训练生成式对抗网络,利用训练得到的生成式对抗网络针对多个已知意图样本生成虚假样本,将所述虚假样本作为未知意图样本并利用特征提取模型提取各未知意图样本的特征表示;或者,
[0016]对已知意图样本进行至少一个词语的随机添加、替换、删除、掩码或改变位置的处
理,得到未知意图样本,利用特征提取模型对各未知意图样本进行特征提取,得到各未知意图样本的特征表示。
[0017]根据本申请实施例中一可实现的方式,利用所述全连接图确定各未知意图样本的软标签包括:
[0018]利用未知意图样本的硬标签、该未知意图样本在全连接图中所有邻居节点的硬标签以及该未知意图样本与所有邻居节点之间边的权重,确定该未知意图样本的软标签;
[0019]其中所述硬标签为用以指示意图类别的标签值。
[0020]根据本申请实施例中一可实现的方式,所述利用未知意图样本的硬标签、该未知意图样本在全连接图中所有邻居节点的硬标签以及该未知意图样本与所有邻居节点之间边的权重,确定该未知意图样本的软标签包括:
[0021]利用公式确定未知意图样本x的软标签l
g
(x);
[0022]其中,l
p
(x)为x的硬标签,l
p
(x
j
)为x
j
的硬标签,D为x在所述全连接图中所有邻居节点构成的集合,a
j
为所述全连接图中x与x
j
之间边的权重,α为经验值或实验值。
[0023]根据本申请实施例中一可实现的方式,在所述获取多个未知意图样本的特征表示以及多个未知意图样本的特征表示之前,还包括采用如下方式预先训练得到所述特征提取模型:
[0024]获取预训练语言模型作为初始的特征提取模型,从已知意图样本集中获取多个意图类别的已知意图样本作为训练数据;
[0025]基于所述训练数据,采用对比学习的方式训练所述特征提取模型,训练目标为:最大化相同意图类别的已知意图样本的特征表示之间的相似度,以及最小化不同意图类别的已知意图样本的特征表示之间的相似度。
[0026]根据本申请实施例中一可实现的方式,利用所述各未知意图样本的软标签训练分类器,得到未知意图检测模型包括:
[0027]利用各未知意图样本的特征表示及未知意图样本的软标签训练分类器,利用特征提取模型和训练得到的分类器得到未知意图检测模型,所述未知意图检测模型用以检测输入的待检测文本是否属于未知意图类型;或者,
[0028]利用各未知意图样本及其软标签,训练包括特征提取模型和分类器的未知意图检测模型,所述未知意图检测模型用以检测输入的待检测文本是否属于未知意图类型;或者,
[0029]利用已知意图样本的特征表示及已知意图样本被标注的标签,各未知意图样本的特征表示及未知意图样本的软标签训练分类器,训练分类器,利用特征提取模型和训练得到的分类器得到未知意图检测模型,所述未知意图检测模型用以检测输入的待检测文本所属的意图类型,所述意图类型包括已知意图类型和未知意图类型;或者,
[0030]利用多个已知意图样本及其被标注的标签,以及各未知意图样本及其软标签,训练包括特征提取模型和分类器的未知意图检测模型,所述未知意图检测模型用以检测输入的待检测文本所属的意图类型,所述意图类型包括已知意图类型和未知意图类型。
[0031]根据本申请实施例中一可实现的方式,所述分类器包括第一分类器和第二分类器;
[0032]在所述未知意图检测模型的训练过程中,采用协同训练co

training的方式训练
所述第一分类器和所述第二分类器;
[0033]训练得到的未知意图检测模型综合所述第一分类器和第二分类器的分类结果确定未知意图检测结果。
[0034]第二方面,提供了一种未知意图检测方法,所述方法包括:
[0035]获取待检测文本;
[0036]将所述待检测文本输入未知意图检测模型,获取所述未知意图检测模型对所述待检测文本的检测结果,所述检测结果包括是否为未知意图类型;
[0037]其中所述未知意图检测模型采用如上第一方面所述的方法预先训练得到。
[0038]第三方面,提供了一种智能对话方法,应用于智能对话系统,所述方法包括:
[0039]获取用户输入的文本或对用户输入语音进行识别得到的文本;
[0040]将获取的文本作为待检测文本输入未知意图检测模型,获取所述未知意图检测模型对所述待检测文本的检测结果;
[0041]若对所述待检测文本的检测结果为未知意图类型,则采用预设的话术生成针对所述用户的响应文本,或者触发人工服务接入所述智能对话本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种训练未知意图检测模型的方法,其特征在于,所述方法包括:获取多个未知意图样本的特征表示以及多个已知意图样本的特征表示;利用所述多个已知意图样本的特征表示和所述多个未知意图样本的特征表示构建全连接图,其中,分别将已知意图样本的特征表示和未知意图样本的特征表示作为所述全连接图中的节点,节点之间边的权重依据该边两端节点之间的相似度确定;利用所述全连接图确定各未知意图样本的软标签,所述软标签为未知意图样本属于未知意图的概率值;利用所述各未知意图样本的软标签训练分类器,得到未知意图检测模型。2.根据权利要求1所述的方法,其特征在于,所述获取多个未知意图样本的特征表示包括:从已知意图样本集中获取多个已知意图样本;通过对多个已知意图样本添加扰动,获取多个未知意图样本的特征表示。3.根据权利要求2所述的方法,其特征在于,通过对多个已知意图样本添加扰动,获取多个未知意图样本的特征表示包括:利用特征提取模型分别对多个已知意图样本进行特征提取,得到各已知意图样本的特征表示;对不同意图类别的已知意图样本的特征表示进行混合,得到未知意图样本的特征表示;或者,将多个已知意图样本和随机噪声作为输入训练生成式对抗网络,利用训练得到的生成式对抗网络针对多个已知意图样本生成虚假样本,将所述虚假样本作为未知意图样本并利用特征提取模型提取各未知意图样本的特征表示;或者,对已知意图样本进行至少一个词语的随机添加、替换、删除、掩码或改变位置的处理,得到未知意图样本,利用特征提取模型对各未知意图样本进行特征提取,得到各未知意图样本的特征表示。4.根据权利要求1所述的方法,其特征在于,利用所述全连接图确定各未知意图样本的软标签包括:利用未知意图样本的硬标签、该未知意图样本在全连接图中所有邻居节点的硬标签以及该未知意图样本与所有邻居节点之间边的权重,确定该未知意图样本的软标签;其中所述硬标签为用以指示意图类别的标签值。5.根据权利要求4所述的方法,其特征在于,所述利用未知意图样本的硬标签、该未知意图样本在全连接图中所有邻居节点的硬标签以及该未知意图样本与所有邻居节点之间边的权重,确定该未知意图样本的软标签包括:利用公式确定未知意图样本x的软标签l
g
(x);其中,l
p
(x)为x的硬标签,l
p
(x
j
)为x
j
的硬标签,D为x在所述全连接图中所有邻居节点构成的集合,a
j
为所述全连接图中x与x
j
之间边的权重,α为经验值或实验值。6.根据权利要求3所述的方法,其特征在于,在所述获取多个未知意图样本的特征表示以及多个未知意图样本的特征表示之前,还包括采用如下方式预先训练得到所述特征提取模型:获取预训练语言模型作为初始的特征提取模型,从已知意图样本集中获取多个意图类
别的已知意图样本作为训练数据;基于所述训练数据,采用对比学习的方式训练所述特征提取模型,训练目标为:最大化相同意图类别的已知意图样本的特征表示之间的相似度,以及最小化不同意图类别的已知意图样本的特征表示之间的相似度。7.根据权利要求1至5中任一项所述的方法,其特征在于,利用所述各未知意图样本的软标签训练分类器,得到未知意图检测模型包括:利用各未知意图样本的特征表示及未知意图样本的软标签训练分类器,利用特征提取模型和训练得到的分类器得到未知意图检测模型,所述未知意...

【专利技术属性】
技术研发人员:郎皓李永彬
申请(专利权)人:阿里巴巴中国有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1