一种基于聚类的新意图发现方法、装置、设备和存储介质制造方法及图纸

技术编号：33436137 阅读：17 留言：0更新日期：2022-05-19 00:24

本申请公开了一种基于聚类的新意图发现方法、装置、设备和存储介质，本申请先根据已知意图数据对分类器进行预训练，再通过优化后的轮廓系数选取聚类数，聚类效果较好，将已知意图数据和无标签数据结合训练分类器的模式，迭代时将上一轮的已知意图数据作为监督信号，不断地更新已知意图数据，直至没有增加新意图时，停止迭代，并输出发现新意图的对齐标签，充分利用了已知意图数据，增强了分类、聚类过程之间的信息交流，更有利于指导聚类过程并准确充分地发现新意图，从而解决了现有技术没有充分利用已知意图的数据，没有考虑新增意图和已知意图的区别，导致聚类效果不佳，难以准确充分地发现新意图的技术问题。分地发现新意图的技术问题。分地发现新意图的技术问题。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于聚类的新意图发现方法、装置、设备和存储介质

[0001]本申请涉及人工智能
，尤其涉及一种基于聚类的新意图发现方法、装置、设备和存储介质。

技术介绍

[0002]当用户无法接听电话时，电话助理能够代替用户接听电话，通过对来电人话语的理解，进行相应的交互和引导，并且记录重要的来电信息传达给用户。不仅减少了因漏接电话而丢失重要信息的情况，还节省了时间和沟通成本，大大提升了人们的生活和工作效率。意图识别的前提是要尽可能多的发现用户意图，在此基础上训练意图识别模型，以及设计相应的交互引导。通过意图发现可以挖掘用户的新意图和新兴趣点，从而进一步地提升对用户意图的识别能力和完善交互引导，提升用户的使用体验。
[0003]经典无监督聚类算法用于意图发现任务时，有两个缺点，一是对于 K
‑
Means等至下而上的聚类算法而言，需要在聚类前设置聚类数目，并且聚类数目会直接影响最终的聚类效果。在进行意图发现时，是不清楚真实聚类数目的；二是经典无监督聚类算法没有学习文本的高维表示，难以准确的计算文本在特征空间的距离。基于深度学习的无监督聚类算法，首先利用深度学习的神经网络提取文本的高维特征或编码，然后再用特征或编码向量寻找聚类中心进行聚类，同时训练一个意图分类器，利用聚类和分类器的结果来训练模型。这种方法存在两个缺点，一是没有引入有监督信号，因此在聚类时容易被异常值所干扰，而影响聚类效果。尤其意图发现任务的无标签数据通常混合了已知意图甚至其他领域的数据，难以准确地对新意图...

【技术保护点】

【技术特征摘要】
1.一种基于聚类的新意图发现方法，其特征在于，包括：S101、根据已知意图数据对分类器进行预训练；S102、根据预置轮廓系数选取聚类数；S103、基于K
‑
means聚类算法，根据所述聚类数对无标签数据进行聚类生成聚类结果，并将所述聚类结果和真实标签对齐得到发现新意图的对齐标签；S104、根据所述聚类结果和所述已知意图数据训练所述分类器，得到所述分类器的伪标签；S105、计算所述对齐标签和所述伪标签的KL散度，以更新所述已知意图数据；S106、重复执行步骤S101至S105，直至没有增加新意图时，输出所述对齐标签。2.根据权利要求1所述的基于聚类的新意图发现方法，其特征在于，所述根据预置轮廓系数选取聚类数，包括：根据第一轮廓系数和/或第二轮廓系数选取聚类数；所述第一轮廓系数为：所述第二轮廓系数为：其中，l(i)为带惩罚项的轮廓系数，l(i)
a
为扩展的带惩罚项的轮廓系数，s(i)为传统轮廓系数的定义，λ和γ均为超参数，K为聚类数，N为样本总数，C
k
为样本i所属的簇，s(i)a为轮廓系数，为样本i所属新增的簇，σ和u分别为当前聚类簇样本数的标准差和均值。3.根据权利要求1所述的基于聚类的新意图发现方法，其特征在于，所述根据所述聚类结果和所述已知意图数据训练所述分类器，得到所述分类器的伪标签，之前包括：根据聚类标签数调整分类器标签数。4.根据权利要求3所述的基于聚类的新意图发现方法，其特征在于，所述根据所述聚类结果和所述已知意图数据训练所述分类器，得到所述分类器的伪标签，包括：根据所述已知意图数据和所述对齐标签计算得到联合损失；根据所述联合损失更新分类器参数，得到分类器的伪标签。5.根据权利要求1所述的基于聚类的新意图发现方法，其特征在于，所述基于K
‑
means聚类算法，根据所...

【专利技术属性】
技术研发人员：熊艺华，杨双霞，周志勇，
申请(专利权)人：广州市讯飞樽鸿信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人