一种基于聚类的新意图发现方法、装置、设备和存储介质制造方法及图纸

技术编号:33436137 阅读:17 留言:0更新日期:2022-05-19 00:24
本申请公开了一种基于聚类的新意图发现方法、装置、设备和存储介质,本申请先根据已知意图数据对分类器进行预训练,再通过优化后的轮廓系数选取聚类数,聚类效果较好,将已知意图数据和无标签数据结合训练分类器的模式,迭代时将上一轮的已知意图数据作为监督信号,不断地更新已知意图数据,直至没有增加新意图时,停止迭代,并输出发现新意图的对齐标签,充分利用了已知意图数据,增强了分类、聚类过程之间的信息交流,更有利于指导聚类过程并准确充分地发现新意图,从而解决了现有技术没有充分利用已知意图的数据,没有考虑新增意图和已知意图的区别,导致聚类效果不佳,难以准确充分地发现新意图的技术问题。分地发现新意图的技术问题。分地发现新意图的技术问题。

【技术实现步骤摘要】
一种基于聚类的新意图发现方法、装置、设备和存储介质


[0001]本申请涉及人工智能
,尤其涉及一种基于聚类的新意图发现方 法、装置、设备和存储介质。

技术介绍

[0002]当用户无法接听电话时,电话助理能够代替用户接听电话,通过对来电人 话语的理解,进行相应的交互和引导,并且记录重要的来电信息传达给用户。 不仅减少了因漏接电话而丢失重要信息的情况,还节省了时间和沟通成本,大 大提升了人们的生活和工作效率。意图识别的前提是要尽可能多的发现用户意 图,在此基础上训练意图识别模型,以及设计相应的交互引导。通过意图发现 可以挖掘用户的新意图和新兴趣点,从而进一步地提升对用户意图的识别能力 和完善交互引导,提升用户的使用体验。
[0003]经典无监督聚类算法用于意图发现任务时,有两个缺点,一是对于 K

Means等至下而上的聚类算法而言,需要在聚类前设置聚类数目,并且聚类 数目会直接影响最终的聚类效果。在进行意图发现时,是不清楚真实聚类数目 的;二是经典无监督聚类算法没有学习文本的高维表示,难以准确的计算文本 在特征空间的距离。基于深度学习的无监督聚类算法,首先利用深度学习的神 经网络提取文本的高维特征或编码,然后再用特征或编码向量寻找聚类中心进 行聚类,同时训练一个意图分类器,利用聚类和分类器的结果来训练模型。这 种方法存在两个缺点,一是没有引入有监督信号,因此在聚类时容易被异常值 所干扰,而影响聚类效果。尤其意图发现任务的无标签数据通常混合了已知意 图甚至其他领域的数据,难以准确地对新意图进行聚类;二是由于聚类数目和 类别是变化的,每次都需要重新初始化分类器的参数。第三种方法基于弱监督 或半监督的聚类算法,通过利用有标签数据或者施加限制,来引导聚类过程, 比如利用有标签数据训练一个二分模型,用于评价聚类效果。这类方法的缺点 是大多弱监督或有监督信号仍没有充分利用有标签数据。上述三种意图发现方 法都没有充分利用已知意图的数据,没有考虑新增意图和已知意图的区别,导 致聚类效果不佳,难以准确充分地发现新意图。

技术实现思路

[0004]本申请提供了一种基于聚类的新意图发现方法、装置、设备和存储介质, 用于解决现有技术没有充分利用已知意图的数据,没有考虑新增意图和已知意 图的区别,导致聚类效果不佳,难以准确充分地发现新意图的技术问题。
[0005]本申请第一方面提供了一种基于聚类的新意图发现方法,包括:
[0006]S101、根据已知意图数据对分类器进行预训练;
[0007]S102、根据预置轮廓系数选取聚类数;
[0008]S103、基于K

means聚类算法,根据所述聚类数对无标签数据进行聚类生 成聚类结果,并将所述聚类结果和真实标签对齐得到发现新意图的对齐标签;
[0009]S104、根据所述聚类结果和所述已知意图数据训练所述分类器,得到所述 分类器
的伪标签;
[0010]S105、计算所述对齐标签和所述伪标签的KL散度,以更新所述已知意图 数据;
[0011]S106、重复执行步骤S101至S105,直至没有增加新意图时,输出所述对 齐标签。
[0012]本申请先根据已知意图数据对分类器进行预训练,再通过优化后的轮廓系 数选取聚类数,聚类效果较好,将已知意图数据和无标签数据结合训练分类器 的模式,迭代时将上一轮的已知意图数据作为监督信号,不断地更新已知意图 数据,直至没有增加新意图时,停止迭代,并输出发现新意图的对齐标签,充 分利用了已知意图数据,增强了分类、聚类过程之间的信息交流,更有利于指 导聚类过程并准确充分地发现新意图,从而解决了现有技术没有充分利用已知 意图的数据,没有考虑新增意图和已知意图的区别,导致聚类效果不佳,难以 准确充分地发现新意图的技术问题。
[0013]可选地,所述根据预置轮廓系数选取聚类数,包括:
[0014]根据第一轮廓系数和/或第二轮廓系数选取聚类数;
[0015]所述第一轮廓系数为:
[0016][0017]所述第二轮廓系数为:
[0018][0019]其中,l(i)为带惩罚项的轮廓系数,l(i)
a
为扩展的带惩罚项的轮廓系数,s(i) 为传统轮廓系数的定义,s(i)a为轮廓系数,λ和γ均为超参数,K为聚类数, N为样本总数,C
k
为样本i所属的簇,为样本i所属新增的簇,σ和u分别 为当前聚类簇样本数的标准差和均值。
[0020]可选地,所述根据所述聚类结果和所述已知意图数据训练所述分类器,得 到所述分类器的伪标签,之前包括:
[0021]根据聚类标签数调整分类器标签数。
[0022]可选地,所述根据所述聚类结果和所述已知意图数据训练所述分类器,得 到所述分类器的伪标签,包括:
[0023]根据所述已知意图数据和所述对齐标签计算得到联合损失;
[0024]根据所述联合损失更新分类器参数,得到分类器的伪标签。
[0025]可选地,所述基于K

means聚类算法,根据所述聚类数对无标签数据进行 聚类生成聚类结果,并将所述聚类结果和真实标签对齐得到发现新意图的对齐 标签,包括:
[0026]基于K

means聚类算法,根据所述聚类数对无标签数据进行聚类生成聚类 结果;
[0027]通过匈牙利算法将所述聚类结果和真实标签对齐得到发现新意图的对齐 标签。
[0028]可选地,所述根据已知意图数据对分类器进行预训练,包括:
[0029]基于BERT预训练语言模型提取已知意图数据的特征向量;
[0030]将所述特征向量输入分类器得到预测标签;
[0031]计算所述预测标签和真实标签的交叉熵损失;
[0032]根据所述交叉熵损失更新分类器参数。
[0033]可选地,所述直至没有增加新意图时,输出所述对齐标签,之后包括:
[0034]通过意图标签生成器将隐式的所述对齐标签转换为显式的意图标签。
[0035]本申请第二方面提供了一种基于聚类的新意图发现装置,包括:
[0036]预处理单元,用于根据已知意图数据对分类器进行预训练;
[0037]选取单元,用于根据预置轮廓系数选取聚类数;
[0038]聚类单元,用于基于K

means聚类算法,根据所述聚类数对无标签数据进 行聚类生成聚类结果,并将所述聚类结果和真实标签对齐得到发现新意图的对 齐标签;
[0039]训练单元,用于根据所述聚类结果和所述已知意图数据训练所述分类器, 得到所述分类器的伪标签;
[0040]计算单元,用于计算所述对齐标签和所述伪标签的KL散度,以更新所述 已知意图数据;
[0041]输出单元,用于没有增加新意图时,输出所述对齐标签。
[0042]本申请第三方面提供了一种电子设备,包括处理器和存储有计算机程序的 存储器,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于聚类的新意图发现方法,其特征在于,包括:S101、根据已知意图数据对分类器进行预训练;S102、根据预置轮廓系数选取聚类数;S103、基于K

means聚类算法,根据所述聚类数对无标签数据进行聚类生成聚类结果,并将所述聚类结果和真实标签对齐得到发现新意图的对齐标签;S104、根据所述聚类结果和所述已知意图数据训练所述分类器,得到所述分类器的伪标签;S105、计算所述对齐标签和所述伪标签的KL散度,以更新所述已知意图数据;S106、重复执行步骤S101至S105,直至没有增加新意图时,输出所述对齐标签。2.根据权利要求1所述的基于聚类的新意图发现方法,其特征在于,所述根据预置轮廓系数选取聚类数,包括:根据第一轮廓系数和/或第二轮廓系数选取聚类数;所述第一轮廓系数为:所述第二轮廓系数为:其中,l(i)为带惩罚项的轮廓系数,l(i)
a
为扩展的带惩罚项的轮廓系数,s(i)为传统轮廓系数的定义,λ和γ均为超参数,K为聚类数,N为样本总数,C
k
为样本i所属的簇,s(i)a为轮廓系数,为样本i所属新增的簇,σ和u分别为当前聚类簇样本数的标准差和均值。3.根据权利要求1所述的基于聚类的新意图发现方法,其特征在于,所述根据所述聚类结果和所述已知意图数据训练所述分类器,得到所述分类器的伪标签,之前包括:根据聚类标签数调整分类器标签数。4.根据权利要求3所述的基于聚类的新意图发现方法,其特征在于,所述根据所述聚类结果和所述已知意图数据训练所述分类器,得到所述分类器的伪标签,包括:根据所述已知意图数据和所述对齐标签计算得到联合损失;根据所述联合损失更新分类器参数,得到分类器的伪标签。5.根据权利要求1所述的基于聚类的新意图发现方法,其特征在于,所述基于K

means聚类算法,根据所...

【专利技术属性】
技术研发人员:熊艺华杨双霞周志勇
申请(专利权)人:广州市讯飞樽鸿信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1