当前位置: 首页 > 专利查询>浙江大学专利>正文

文本聚类方法及装置制造方法及图纸

技术编号:37873049 阅读:11 留言:0更新日期:2023-06-15 21:02
本说明书提供文本聚类方法及装置,其中文本聚类方法包括:获取至少两个待聚类文本的类别标签,并根据文本分类模型确定至少两个待聚类文本对应的预测类别分布,其中,文本分类模型为基于类别标签迭代训练设定次数获得;根据最优传输求解算法,确定预测类别分布对应的最优类别分布;根据最优类别分布更新类别标签,并基于更新后的类别标签继续对文本分类模型进行训练,直至文本分类模型收敛;通过收敛的文本分类模型,确定至少两个待聚类文本对应的聚类结果。如此,基于最优传输求解算法不断更新类别标签,提高了待聚类文本对文本类别不平衡的鲁棒性,且通过可靠的类别标签作为监督信号可以提高文本分类模型对数据噪声的鲁棒性。号可以提高文本分类模型对数据噪声的鲁棒性。号可以提高文本分类模型对数据噪声的鲁棒性。

【技术实现步骤摘要】
文本聚类方法及装置


[0001]本说明书涉及计算机
,特别涉及一种文本聚类方法。本说明书同时涉及一种文本聚类装置,一种计算设备,以及一种计算机可读存储介质。

技术介绍

[0002]随着计算机技术和互联网技术的快速发展,越来越多的信息可以通过线上文本的方式进行存储和管理,越来越多的领域开始利用计算机进行文本匹配和聚类,从而便于快速查找和了解相关内容,而随着文本数量的快速增长,文本聚类的算法越来越多。
[0003]现有技术中,往往是获取大量不同类别的文本,基于该大量不同类别的文本训练获得分类模型,但是不同类别的文本数量之间可能差别很大,导致不同类别训练样本数不平衡,且由于文本的稀疏性,噪声对聚类结果的影响也较大,缺少可靠的监督信号,严重影响分类模型的鲁棒性,从而严重影响文本聚类结果的准确性。进而需要更准确更可靠的方法进行文本聚类的操作或者处理。

技术实现思路

[0004]有鉴于此,本说明书实施例提供了一种文本聚类方法。本说明书同时涉及一种文本聚类装置,一种计算设备,以及一种计算机可读存储介质,以解决现有技术中存在的技术缺陷。
[0005]根据本说明书实施例的第一方面,提供了一种文本聚类方法,包括:
[0006]获取至少两个待聚类文本的类别标签,并根据文本分类模型确定至少两个待聚类文本对应的预测类别分布,其中,文本分类模型为基于类别标签迭代训练设定次数获得;
[0007]根据最优传输求解算法,确定预测类别分布对应的最优类别分布;
[0008]根据最优类别分布更新类别标签,并基于更新后的类别标签继续对文本分类模型进行训练,直至文本分类模型收敛;
[0009]通过收敛的文本分类模型,确定至少两个待聚类文本对应的聚类结果。
[0010]根据本说明书实施例的第二方面,提供了一种文本聚类装置,包括:
[0011]第一确定模块,被配置为获取至少两个待聚类文本的类别标签,并根据文本分类模型确定至少两个待聚类文本对应的预测类别分布,其中,文本分类模型为基于类别标签迭代训练设定次数获得;
[0012]第二确定模块,被配置为根据最优传输求解算法,确定预测类别分布对应的最优类别分布;
[0013]更新模块,被配置为根据最优类别分布更新类别标签,并基于更新后的类别标签继续对文本分类模型进行训练,直至文本分类模型收敛;
[0014]第三确定模块,被配置为通过收敛的文本分类模型,确定至少两个待聚类文本对应的聚类结果。
[0015]根据本说明书实施例的第三方面,提供了一种计算设备,包括:
[0016]存储器和处理器;
[0017]存储器用于存储计算机可执行指令,处理器用于执行计算机可执行指令,以实现上述的文本聚类方法的步骤。
[0018]根据本说明书实施例的第四方面,提供了一种计算机可读存储介质,其存储有计算机可执行指令,该指令被处理器执行时实现上述的文本聚类方法的步骤。
[0019]本说明书实施例提供的文本聚类方法,获取至少两个待聚类文本的类别标签,并根据文本分类模型确定至少两个待聚类文本对应的预测类别分布,其中,文本分类模型为基于类别标签迭代训练设定次数获得;根据最优传输求解算法,确定预测类别分布对应的最优类别分布;根据最优类别分布更新类别标签,并基于更新后的类别标签继续对文本分类模型进行训练,直至文本分类模型收敛;通过收敛的文本分类模型,确定至少两个待聚类文本对应的聚类结果。
[0020]这种情况下,先获取至少两个待聚类文本的类别标签,基于该类别标签迭代训练设定次数获得文本分类模型,通过文本分类模型获得至少两个待聚类文本对应的预测类别分布,通过最优传输求解算法,求解预测类别分布对应的最优类别分布,以对初始确定出的类别标签进行更新,然后基于更新后的类别标签继续对文本分类模型进行训练,直至文本分类模型收敛,可以获得至少两个待聚类文本对应的聚类结果。如此,通过最优传输求解算法,对初始的类别标签不断进行迭代更新,使得至少两个待聚类文本的类别标签逐渐靠近真实类别分布,生成可靠的类别标签,将该可靠的类别标签作为监督信号,对文本分类模型进行训练直至收敛,基于最优传输求解算法不断更新类别标签,提高了待聚类文本对文本类别不平衡的鲁棒性,且通过可靠的类别标签作为监督信号可以提高文本分类模型对数据噪声的鲁棒性,从而提高了文本分类模型的识别准确性,进而保证了文本聚类结果的准确性。
附图说明
[0021]图1是本说明书一实施例提供的一种文本聚类方法的流程图;
[0022]图2是本说明书一实施例提供的一种文本聚类方法的算法架构示意图;
[0023]图3是本说明书一实施例提供的一种应用于短文本场景下的文本聚类方法的处理流程图;
[0024]图4是本说明书一实施例提供的一种文本聚类装置的结构示意图;
[0025]图5是本说明书一实施例提供的一种计算设备的结构框图。
具体实施方式
[0026]在下面的描述中阐述了很多具体细节以便于充分理解本说明书。但是本说明书能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本说明书内涵的情况下做类似推广,因此本说明书不受下面公开的具体实施的限制。
[0027]在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多
个相关联的列出项目的任何或所有可能组合。
[0028]应当理解,尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。取决于语境,如在此所使用的词语“如果”可以被解释成为“在
……
时”或“当
……
时”或“响应于确定”。
[0029]需要说明的是,有非常多的数据是通过短文本的形式呈现的,而短文本聚类可以从大量的短文本数据中挖掘出有价值的信息,是最基础的文本挖掘任务之一。但是短文本往往是类别不平衡的和数据嘈杂的,短文本聚类方法不能很好地处理短文本聚类问题。也就是说,短文本有很多类别并且其类别分布存在各种情况,不同短文本数据集往往具有不同的类别分布,可能各个类别数据量差不多(几乎平衡),也可能差别很大(严重不平衡),目前的短文本聚类方法没有考虑类别不平衡的情况,在数据严重不平衡时会得到糟糕的解,聚类结果正确率会显著下降;此外,短文本数据的长度较短,蕴含的信息量比较小,由于短文本的稀疏性,噪声对聚类结果的影响较大,目前的短文本聚类方法由于缺少监督信息导致了不够鲁棒的文本表示,从而影响文本聚类结果。
[0030]因而,本说明本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本聚类方法,其特征在于,所述方法包括:获取至少两个待聚类文本的类别标签,并根据文本分类模型确定所述至少两个待聚类文本对应的预测类别分布,其中,所述文本分类模型为基于所述类别标签迭代训练设定次数获得;根据最优传输求解算法,确定所述预测类别分布对应的最优类别分布;根据所述最优类别分布更新所述类别标签,并基于更新后的类别标签继续对所述文本分类模型进行训练,直至所述文本分类模型收敛;通过收敛的文本分类模型,确定所述至少两个待聚类文本对应的聚类结果。2.根据权利要求1所述的文本聚类方法,其特征在于,所述获取至少两个待聚类文本的类别标签,包括:通过k均值聚类算法对所述至少两个待聚类文本进行聚类,获得所述至少两个待聚类文本的类别标签。3.根据权利要求1所述的文本聚类方法,其特征在于,所述根据文本分类模型确定所述至少两个待聚类文本对应的预测类别分布之前,还包括:从所述至少两个待聚类文本中选择目标文本;对所述目标文本进行文本增强,获得对应的第一增强文本和第二增强文本;将所述第一增强文本和第二增强文本输入初始分类模型,获得所述第一增强文本对应的第一预测分布,以及所述第二增强文本对应的第二预测分布;根据所述类别标签、所述第一预测分布和所述第二预测分布,计算所述初始分类模型的第一损失值,并根据所述第一损失值反向调整所述初始分类模型的模型参数,返回执行所述从所述至少两个待聚类文本中选择目标文本的步骤,直至迭代次数达到所述设定次数,获得所述文本分类模型。4.根据权利要求3所述的文本聚类方法,其特征在于,所述初始分类模型包括编码层和分类层;所述将所述第一增强文本和第二增强文本输入初始分类模型,获得所述第一增强文本对应的第一预测分布,以及所述第二增强文本对应的第二预测分布,包括:将所述第一增强文本和第二增强文本输入初始分类模型的编码层,获得所述第一增强文本对应的第一向量表示,以及所述第二增强文本对应的第二向量表示;将所述第一向量表示和所述第二向量表示输入所述初始分类模型的分类层,获得所述第一增强文本对应的第一预测分布,以及所述第二增强文本对应的第二预测分布。5.根据权利要求4所述的文本聚类方法,其特征在于,所述将所述第一增强文本和第二增强文本输入初始分类模型的编码层,获得所述第一增强文本对应的第一向量表示,以及所述第二增强文本对应的第二向量表示之后,还包括:将所述第一向量表示和所述第二向量表示输入至映射模型,获得所述第一向量表示在对比空间的第一映射表示,以及所述第二向量表示在对比空间的第二映射表示;根据所述...

【专利技术属性】
技术研发人员:郑小林胡梦玲陈超超刘伟明
申请(专利权)人:浙江大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1