训练未知意图检测模型的方法、未知意图检测方法及装置制造方法及图纸

技术编号：37711198 阅读：17 留言：0更新日期：2023-06-02 00:03

本申请实施例公开了一种训练未知意图检测模型的方法、未知意图检测方法及装置，涉及人工智能技术领域。其中方法包括：获取训练数据，训练数据包括多个被标注已知意图标签的样本和多个被标注未知意图标签的样本，其中各样本包括输入文本以及该输入文本的历史上下文；利用训练数据训练未知意图检测模型，未知意图检测模型包括特征提取网络和分类网络；训练包括：将样本输入特征提取网络，特征提取网络对样本进行特征提取，得到样本的特征表示，分类网络利用样本的特征表示进行分类，得到样本的意图类型；训练的目标包括最小化分类网络得到的意图类型与对应样本被标注的标签之间的差异。本申请能够提高未知意图检测的准确性。本申请能够提高未知意图检测的准确性。本申请能够提高未知意图检测的准确性。

全部详细技术资料下载

【技术实现步骤摘要】
训练未知意图检测模型的方法、未知意图检测方法及装置

[0001]本申请涉及人工智能
，特别是涉及一种训练未知意图检测模型的方法、未知意图检测方法及装置。

技术介绍

[0002]意图分类在智能对话系统中起着至关重要的作用，只有识别出用户意图才能够为用户提供准确的服务。然而在实际场景中，已有的意图类别往往无法覆盖所有的用户意图，随着时间地推移会产生新的用户意图。如果无法发现这些新产生的意图，智能对话系统会误将其划分至已有的意图类型，从而为用户提供不满足用户需求的服务，给用户带来不好的体验，因此提高未知意图检测的准确性成为一个重要的任务。

技术实现思路

[0003]有鉴于此，本申请提供了一种训练未知意图检测模型的方法、未知意图检测方法及装置，用以提高未知意图检测的准确性。
[0004]本申请提供了如下方案：
[0005]第一方面，提供了一种训练未知意图检测模型的方法，所述方法包括：
[0006]获取训练数据，所述训练数据包括多个被标注已知意图标签的样本和多个被标注未知意图标签的样本，其中各样本包括输入文本以及该输入文本的历史上下文；
[0007]利用所述训练数据训练所述未知意图检测模型，所述未知意图检测模型包括特征提取网络和分类网络；所述训练包括：将所述样本输入所述特征提取网络，所述特征提取网络对所述样本进行特征提取，得到所述样本的特征表示，所述分类网络利用所述样本的特征表示进行分类，得到所述样本的意图类型；所述训练的目标包括最小化所述分类网络得到的意图类型与对应样本被...

【技术保护点】

【技术特征摘要】
1.一种训练未知意图检测模型的方法，其特征在于，所述方法包括：获取训练数据，所述训练数据包括多个被标注已知意图标签的样本和多个被标注未知意图标签的样本，其中各样本包括输入文本以及该输入文本的历史上下文；利用所述训练数据训练所述未知意图检测模型，所述未知意图检测模型包括特征提取网络和分类网络；所述训练包括：将所述样本输入所述特征提取网络，所述特征提取网络对所述样本进行特征提取，得到所述样本的特征表示，所述分类网络利用所述样本的特征表示进行分类，得到所述样本的意图类型；所述训练的目标包括最小化所述分类网络得到的意图类型与对应样本被标注的标签之间的差异。2.根据权利要求1所述的方法，其特征在于，获取所述多个被标注未知意图标签的样本包括：将多个被标注已知意图标签的样本和随机噪声作为输入训练生成式对抗网络，利用训练得到的生成式对抗网络针对多个被标注已知意图标签的样本生成虚假样本，对所述虚假样本标注未知意图标签；或者，对被标注已知意图标签的样本进行至少一个词语的随机添加、替换、删除、掩码或改变位置的处理，对得到的样本标注未知意图标签。3.根据权利要求1所述的方法，其特征在于，所述训练还包括：所述特征提取网络利用抛弃法dropout针对所述样本产生第一视图和第二视图，并对所述第一视图和第二视图进行特征提取，得到第一视图表示和第二视图表示；利用编码器分别对所述第一视图表示和第二视图表示进行编码，得到第一隐变量和第二隐变量；所述训练的目标还包括：最大化所述第一隐变量和第二隐变量之间的关联性。4.根据权利要求3所述的方法，其特征在于，所述第一隐变量和第二隐变量之间的关联性由所述第一隐变量和第二隐变量之间的KL散度、以及所述第一隐变量和第二隐变量之间的互信息得到。5.根据权利要求1所述的方法，其特征在于，所述训练还包括：从未标记样本数据集中检索得到多个候选样本，所述候选样本的历史上下文与被标注已知意图标签的样本的历史上下文之间满足预设相似度要求；利用所述特征提取网络对所述多个候选样本分别进行特征提取，得到所述多个候选样本的特征表示；对所述多个候选样本的特征表示进行混合处理，得到伪未知意图样本的特征表示；所述分类网络利用所述伪未知意图样本的特征表示进行分类得到意图类型；所述训练的目标还包括：最小化所述分类网络利用所述伪未知意图样本的特征表示得到的意图类型与未知意图类型之间的差异。6.根据权利要求5所述的方法，其特征在于，对所述多个候选样本的特征表示进行混合处理，得到伪未知意图样本的特征表示包括：利用各候选样本的特征表示与所述被标注已知意图标签的样本的特征表示之间的距离，对各候选样本的特征表示进行加...

【专利技术属性】
技术研发人员：郎皓，惠彬原，李永彬，
申请(专利权)人：阿里巴巴中国有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人