文本聚类方法及装置制造方法及图纸

技术编号：37873049 阅读：11 留言：0更新日期：2023-06-15 21:02

本说明书提供文本聚类方法及装置，其中文本聚类方法包括：获取至少两个待聚类文本的类别标签，并根据文本分类模型确定至少两个待聚类文本对应的预测类别分布，其中，文本分类模型为基于类别标签迭代训练设定次数获得；根据最优传输求解算法，确定预测类别分布对应的最优类别分布；根据最优类别分布更新类别标签，并基于更新后的类别标签继续对文本分类模型进行训练，直至文本分类模型收敛；通过收敛的文本分类模型，确定至少两个待聚类文本对应的聚类结果。如此，基于最优传输求解算法不断更新类别标签，提高了待聚类文本对文本类别不平衡的鲁棒性，且通过可靠的类别标签作为监督信号可以提高文本分类模型对数据噪声的鲁棒性。号可以提高文本分类模型对数据噪声的鲁棒性。号可以提高文本分类模型对数据噪声的鲁棒性。

全部详细技术资料下载

【技术实现步骤摘要】
文本聚类方法及装置

[0001]本说明书涉及计算机
，特别涉及一种文本聚类方法。本说明书同时涉及一种文本聚类装置，一种计算设备，以及一种计算机可读存储介质。

技术介绍

[0002]随着计算机技术和互联网技术的快速发展，越来越多的信息可以通过线上文本的方式进行存储和管理，越来越多的领域开始利用计算机进行文本匹配和聚类，从而便于快速查找和了解相关内容，而随着文本数量的快速增长，文本聚类的算法越来越多。
[0003]现有技术中，往往是获取大量不同类别的文本，基于该大量不同类别的文本训练获得分类模型，但是不同类别的文本数量之间可能差别很大，导致不同类别训练样本数不平衡，且由于文本的稀疏性，噪声对聚类结果的影响也较大，缺少可靠的监督信号，严重影响分类模型的鲁棒性，从而严重影响文本聚类结果的准确性。进而需要更准确更可靠的方法进行文本聚类的操作或者处理。

技术实现思路

[0004]有鉴于此，本说明书实施例提供了一种文本聚类方法。本说明书同时涉及一种文本聚类装置，一种计算设备，以及一种计算机可读存储介质，以解决现有技术中存在的技术缺陷。
[0005]根据本说明书实施例的第一方面，提供了一种文本聚类方法，包括：
[0006]获取至少两个待聚类文本的类别标签，并根据文本分类模型确定至少两个待聚类文本对应的预测类别分布，其中，文本分类模型为基于类别标签迭代训练设定次数获得；
[0007]根据最优传输求解算法，确定预测类别分布对应的最优类别分布；
[0008]根据最优类别分布更新...

【技术保护点】

【技术特征摘要】
1.一种文本聚类方法，其特征在于，所述方法包括：获取至少两个待聚类文本的类别标签，并根据文本分类模型确定所述至少两个待聚类文本对应的预测类别分布，其中，所述文本分类模型为基于所述类别标签迭代训练设定次数获得；根据最优传输求解算法，确定所述预测类别分布对应的最优类别分布；根据所述最优类别分布更新所述类别标签，并基于更新后的类别标签继续对所述文本分类模型进行训练，直至所述文本分类模型收敛；通过收敛的文本分类模型，确定所述至少两个待聚类文本对应的聚类结果。2.根据权利要求1所述的文本聚类方法，其特征在于，所述获取至少两个待聚类文本的类别标签，包括：通过k均值聚类算法对所述至少两个待聚类文本进行聚类，获得所述至少两个待聚类文本的类别标签。3.根据权利要求1所述的文本聚类方法，其特征在于，所述根据文本分类模型确定所述至少两个待聚类文本对应的预测类别分布之前，还包括：从所述至少两个待聚类文本中选择目标文本；对所述目标文本进行文本增强，获得对应的第一增强文本和第二增强文本；将所述第一增强文本和第二增强文本输入初始分类模型，获得所述第一增强文本对应的第一预测分布，以及所述第二增强文本对应的第二预测分布；根据所述类别标签、所述第一预测分布和所述第二预测分布，计算所述初始分类模型的第一损失值，并根据所述第一损失值反向调整所述初始分类模型的模型参数，返回执行所述从所述至少两个待聚类文本中选择目标文本的步骤，直至迭代次数达到所述设定次数，获得所述文本分类模型。4.根据权利要求3所述的文本聚类方法，其特征在于，所述初始分类模型包括编码层和分类层；所述将所述第一增强文本和第二增强文本输入初始分类模型，获得所述第一增强文本对应的第一预测分布，以及所述第二增强文本对应的第二预测分布，包括：将所述第一增强文本和第二增强文本输入初始分类模型的编码层，获得所述第一增强文本对应的第一向量表示，以及所述第二增强文本对应的第二向量表示；将所述第一向量表示和所述第二向量表示输入所述初始分类模型的分类层，获得所述第一增强文本对应的第一预测分布，以及所述第二增强文本对应的第二预测分布。5.根据权利要求4所述的文本聚类方法，其特征在于，所述将所述第一增强文本和第二增强文本输入初始分类模型的编码层，获得所述第一增强文本对应的第一向量表示，以及所述第二增强文本对应的第二向量表示之后，还包括：将所述第一向量表示和所述第二向量表示输入至映射模型，获得所述第一向量表示在对比空间的第一映射表示，以及所述第二向量表示在对比空间的第二映射表示；根据所述...

【专利技术属性】
技术研发人员：郑小林，胡梦玲，陈超超，刘伟明，
申请(专利权)人：浙江大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人