【技术实现步骤摘要】
生成意图标签的方法、装置、设备、介质和程序产品
[0001]本公开涉及一种生成意图标签的方法、装置、电子设备、存储介质和计算机程序产品。
技术介绍
[0002]在人机对话场景中,智能对话系统首先需要识别用户消息的意图标签,然后从系统中预存的该意图标签对应的多个应答模板中选择最匹配的应答消息,其中,意图标签可以用于表征用户在对话中的意图。实践中,通常采用人工标记或机器学习算法(例如无监督的聚类算法)对文本数据进行标记。
[0003]相关技术中,当数据集中同时存在已标记的数据和未标记的数据且需要基于未标记的数据生成新的意图标签时,通常是采用人工标记的方式来对其中未标记的数据进行标记。
技术实现思路
[0004]本公开实施例提供一种生成意图标签的方法、装置、电子设备、存储介质和计算机程序产品。
[0005]本公开实施例的一个方面,提供一种生成意图标签的方法,包括:获取待处理的数据集,数据集中的数据包括已标记历史意图标签的第一数据和未标记意图标签的第二数据;对数据集进行聚类,得到至少一个第一簇和至少一 ...
【技术保护点】
【技术特征摘要】
1.一种生成意图标签的方法,其特征在于,包括:获取待处理的数据集,所述数据集中的数据包括已标记历史意图标签的第一数据和未标记意图标签的第二数据;对所述数据集进行聚类,得到至少一个第一簇和至少一个第二簇,其中,每个所述第一簇中包括的第一数据具有相同历史意图标签,每个所述第二簇由第二数据组成;基于所述第二簇,生成新意图标签。2.根据权利要求1所述的方法,其特征在于,所述对所述数据集进行聚类,包括:确定所述数据集中的数据的特征向量;基于所述历史意图标签的数量和待生成的新意图标签的数量,确定待聚类的簇的目标数量;从所述数据集中选取出目标数量个数据作为初始聚类中心;基于所述数据集中的数据与每个所述初始聚类中心的距离,将所述数据集中的数据聚类成目标数量个簇,所述距离基于所述数据集中的数据的特征向量与作为所述初始聚类中心的数据的特征向量确定;根据每个簇中包括的所述数据的特征向量,确定每个簇的新聚类中心,并基于所述新聚类中心,更新所述簇,得到更新后的簇;重复所述确定每个簇的新聚类中心和所述更新簇的步骤,直到满足预设的终止条件,得到所述至少一个第一簇和所述至少一个第二簇,其中,所述根据每个簇中包括的所述数据的特征向量,确定每个簇的新聚类中心,包括:若所述簇中仅包括所述第一数据或所述第二数据,基于该簇中包含的所述第一数据或所述第二数据的特征向量的均值,确定该簇的新聚类中心;若所述簇中包括所述第一数据和所述第二数据,基于该簇中包含的所述第二数据的特征向量确定惩罚项,并基于该簇中包含的所述第一数据的特征向量与所述惩罚项,确定该簇的新聚类中心;所述基于所述新聚类中心,更新所述簇,得到更新后的簇,包括:基于所述数据集中的数据与每个所述新聚类中心的距离,更新所述数据集中的数据归属的簇,得到更新后的簇。3.根据权利要求2所述的方法,其特征在于,基于所述簇中包含的所述第二数据的特征向量确定惩罚项,包括:确定所述簇中包含的所述第二数据的特征向量的和;将所述簇中包含的所述第二数据的特征向量的和与预设的惩罚项系数的乘积确定为所述惩罚项。4.根据权利要求3所述的方法,其特征在于,基于所述簇中包含的所述第一数据的特征向量与所述惩罚项,确定所述簇的新聚类中心,包括:确定所述簇中包含的所述第一数据的特征向量的和;确定所述簇中包含的所述第一数据的特征向量的和与所述惩罚项的差值;基于所述簇中包含的数...
【专利技术属性】
技术研发人员:许健智,
申请(专利权)人:贝塔通科技北京有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。