训练未知意图检测模型的方法、未知意图检测方法及装置制造方法及图纸

技术编号:37711198 阅读:17 留言:0更新日期:2023-06-02 00:03
本申请实施例公开了一种训练未知意图检测模型的方法、未知意图检测方法及装置,涉及人工智能技术领域。其中方法包括:获取训练数据,训练数据包括多个被标注已知意图标签的样本和多个被标注未知意图标签的样本,其中各样本包括输入文本以及该输入文本的历史上下文;利用训练数据训练未知意图检测模型,未知意图检测模型包括特征提取网络和分类网络;训练包括:将样本输入特征提取网络,特征提取网络对样本进行特征提取,得到样本的特征表示,分类网络利用样本的特征表示进行分类,得到样本的意图类型;训练的目标包括最小化分类网络得到的意图类型与对应样本被标注的标签之间的差异。本申请能够提高未知意图检测的准确性。本申请能够提高未知意图检测的准确性。本申请能够提高未知意图检测的准确性。

【技术实现步骤摘要】
训练未知意图检测模型的方法、未知意图检测方法及装置


[0001]本申请涉及人工智能
,特别是涉及一种训练未知意图检测模型的方法、未知意图检测方法及装置。

技术介绍

[0002]意图分类在智能对话系统中起着至关重要的作用,只有识别出用户意图才能够为用户提供准确的服务。然而在实际场景中,已有的意图类别往往无法覆盖所有的用户意图,随着时间地推移会产生新的用户意图。如果无法发现这些新产生的意图,智能对话系统会误将其划分至已有的意图类型,从而为用户提供不满足用户需求的服务,给用户带来不好的体验,因此提高未知意图检测的准确性成为一个重要的任务。

技术实现思路

[0003]有鉴于此,本申请提供了一种训练未知意图检测模型的方法、未知意图检测方法及装置,用以提高未知意图检测的准确性。
[0004]本申请提供了如下方案:
[0005]第一方面,提供了一种训练未知意图检测模型的方法,所述方法包括:
[0006]获取训练数据,所述训练数据包括多个被标注已知意图标签的样本和多个被标注未知意图标签的样本,其中各样本包括输入文本以及该输入文本的历史上下文;
[0007]利用所述训练数据训练所述未知意图检测模型,所述未知意图检测模型包括特征提取网络和分类网络;所述训练包括:将所述样本输入所述特征提取网络,所述特征提取网络对所述样本进行特征提取,得到所述样本的特征表示,所述分类网络利用所述样本的特征表示进行分类,得到所述样本的意图类型;所述训练的目标包括最小化所述分类网络得到的意图类型与对应样本被标注的标签之间的差异。
[0008]根据本申请实施例中一可实现的方式,获取所述多个被标注未知意图标签的样本包括:
[0009]将多个被标注已知意图标签的样本和随机噪声作为输入训练生成式对抗网络,利用训练得到的生成式对抗网络针对多个被标注已知意图标签的样本生成虚假样本,对所述虚假样本标注未知意图标签;或者,
[0010]对被标注已知意图标签的样本进行至少一个词语的随机添加、替换、删除、掩码或改变位置的处理,对得到的样本标注未知意图标签。
[0011]根据本申请实施例中一可实现的方式,述训练还包括:
[0012]所述特征提取网络利用dropout(抛弃法)针对所述样本产生第一视图和第二视图,并对所述第一视图和第二视图进行特征提取,得到第一视图表示和第二视图表示;
[0013]利用编码器分别对所述第一视图表示和第二视图表示进行编码,得到第一隐变量和第二隐变量;
[0014]所述训练的目标还包括:最大化所述第一隐变量和第二隐变量之间的关联性。
[0015]根据本申请实施例中一可实现的方式,所述第一隐变量和第二隐变量之间的关联性由所述第一隐变量和第二隐变量之间的KL散度、以及所述第一隐变量和第二隐变量之间的互信息得到。
[0016]根据本申请实施例中一可实现的方式,所述训练还包括:
[0017]从未标记样本数据集中检索得到多个候选样本,所述候选样本的历史上下文与被标注已知意图标签的样本的历史上下文之间满足预设相似度要求;
[0018]利用所述特征提取网络对所述多个候选样本分别进行特征提取,得到所述多个候选样本的特征表示;
[0019]对所述多个候选样本的特征表示进行混合处理,得到伪未知意图样本的特征表示;
[0020]所述分类网络利用所述伪未知意图样本的特征表示进行分类得到意图类型;
[0021]所述训练的目标还包括:最小化所述分类网络利用所述伪未知意图样本的特征表示得到的意图类型与未知意图类型之间的差异。
[0022]根据本申请实施例中一可实现的方式,对所述多个候选样本的特征表示进行混合处理,得到伪未知意图样本的特征表示包括:
[0023]利用各候选样本的特征表示与所述被标注已知意图标签的样本的特征表示之间的距离,对各候选样本的特征表示进行加权处理,得到伪未知意图样本的特征表示。
[0024]根据本申请实施例中一可实现的方式,所述分类网络为二分类网络,所述分类网络得到的所述样本的意图类型为是否属于未知意图;或者,
[0025]所述分类网络为多分类网络,所述分类网络得到的所述样本的意图类型包括未知意图和已知的k个意图类型,所述k为预设的正整数。
[0026]第二方面,提供了一种未知意图检测方法,所述方法包括:
[0027]获取待检测文本,所述待检测文本包括当前文本以及当前文本的历史上下文;
[0028]将所述待检测文本输入未知意图检测模型,获取所述未知意图检测模型得到的所述待检测文本的意图类型,所述意图类型包括未知意图;
[0029]其中所述未知意图检测模型采用如第一方面中任一项所述的方法预先训练得到。
[0030]根据本申请实施例中一可实现的方式,该方法应用于智能对话系统,所述待检测文本包括用户输入的文本以及该文本在对话中的历史上下文,或者对用户输入语音进行识别得到的文本以及该文本的历史上下文;
[0031]若对所述待检测文本的检测结果为未知意图,则采用预设的话术生成针对所述用户的响应文本。
[0032]第三方面,提供了一种训练未知意图检测模型的装置,所述装置包括:
[0033]样本获取单元,被配置为获取训练数据,所述训练数据包括多个被标注已知意图标签的样本和多个被标注未知意图标签的样本,其中各样本包括输入文本以及该输入文本的历史上下文;
[0034]模型训练单元,被配置为利用所述训练数据训练所述未知意图检测模型,所述未知意图检测模型包括特征提取网络和分类网络;所述训练包括:将所述样本输入所述特征提取网络,所述特征提取网络对所述样本进行特征提取,得到所述样本的特征表示,所述分类网络利用所述样本的特征表示进行分类,得到所述样本的意图类型;所述训练的目标包
括最小化所述分类网络得到的意图类型与对应样本被标注的标签之间的差异。
[0035]第四方面,提供了一种未知意图检测装置,所述装置包括:
[0036]文本获取单元,被配置为获取待检测文本,所述待检测文本包括当前文本以及当前文本的历史上下文;
[0037]意图检测单元,被配置为将所述待检测文本输入未知意图检测模型,获取所述未知意图检测模型得到的所述待检测文本的意图类型,所述意图类型包括未知意图;
[0038]其中所述未知意图检测模型采用如上第三方面所述的装置预先训练得到。
[0039]根据第五方面,提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述第一方面和第二方面中任一项所述的方法的步骤。
[0040]根据第六方面,提供了一种电子设备,包括:
[0041]一个或多个处理器;以及
[0042]与所述一个或多个处理器关联的存储器,所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时,执行上述第一方面和第二方面中任一项所述的方法的步骤。
[0043]根据本申请提本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种训练未知意图检测模型的方法,其特征在于,所述方法包括:获取训练数据,所述训练数据包括多个被标注已知意图标签的样本和多个被标注未知意图标签的样本,其中各样本包括输入文本以及该输入文本的历史上下文;利用所述训练数据训练所述未知意图检测模型,所述未知意图检测模型包括特征提取网络和分类网络;所述训练包括:将所述样本输入所述特征提取网络,所述特征提取网络对所述样本进行特征提取,得到所述样本的特征表示,所述分类网络利用所述样本的特征表示进行分类,得到所述样本的意图类型;所述训练的目标包括最小化所述分类网络得到的意图类型与对应样本被标注的标签之间的差异。2.根据权利要求1所述的方法,其特征在于,获取所述多个被标注未知意图标签的样本包括:将多个被标注已知意图标签的样本和随机噪声作为输入训练生成式对抗网络,利用训练得到的生成式对抗网络针对多个被标注已知意图标签的样本生成虚假样本,对所述虚假样本标注未知意图标签;或者,对被标注已知意图标签的样本进行至少一个词语的随机添加、替换、删除、掩码或改变位置的处理,对得到的样本标注未知意图标签。3.根据权利要求1所述的方法,其特征在于,所述训练还包括:所述特征提取网络利用抛弃法dropout针对所述样本产生第一视图和第二视图,并对所述第一视图和第二视图进行特征提取,得到第一视图表示和第二视图表示;利用编码器分别对所述第一视图表示和第二视图表示进行编码,得到第一隐变量和第二隐变量;所述训练的目标还包括:最大化所述第一隐变量和第二隐变量之间的关联性。4.根据权利要求3所述的方法,其特征在于,所述第一隐变量和第二隐变量之间的关联性由所述第一隐变量和第二隐变量之间的KL散度、以及所述第一隐变量和第二隐变量之间的互信息得到。5.根据权利要求1所述的方法,其特征在于,所述训练还包括:从未标记样本数据集中检索得到多个候选样本,所述候选样本的历史上下文与被标注已知意图标签的样本的历史上下文之间满足预设相似度要求;利用所述特征提取网络对所述多个候选样本分别进行特征提取,得到所述多个候选样本的特征表示;对所述多个候选样本的特征表示进行混合处理,得到伪未知意图样本的特征表示;所述分类网络利用所述伪未知意图样本的特征表示进行分类得到意图类型;所述训练的目标还包括:最小化所述分类网络利用所述伪未知意图样本的特征表示得到的意图类型与未知意图类型之间的差异。6.根据权利要求5所述的方法,其特征在于,对所述多个候选样本的特征表示进行混合处理,得到伪未知意图样本的特征表示包括:利用各候选样本的特征表示与所述被标注已知意图标签的样本的特征表示之间的距离,对各候选样本的特征表示进行加...

【专利技术属性】
技术研发人员:郎皓惠彬原李永彬
申请(专利权)人:阿里巴巴中国有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1