文本聚类方法、系统、电子设备及介质技术方案

技术编号：40556943 阅读：10 留言：0更新日期：2024-03-05 19:18

本申请提供一种文本聚类方法、系统、电子设备及介质，所述方法包括：基于所述待聚类文本进行对比学习以提取所述待聚类文本数据点；基于所述待聚类文本数据点构建低维数据点；基于欧式距离对所述低维数据点进行分层密度聚集以获取数据簇；基于所述数据簇的密度获取所述待聚类文本的聚类结果。本申请采用对比学习来表征文本，实现对复杂句子的语义理解；能够自动确定文本数据中的主题数量，生成高质量和高连贯性的主题。同时，本申请能够有效处理长文本，在保证效果的同时对聚类模型进行加速，还可以通过并行GPU计算，应用于大规模文本的聚类，处理效率高。

全部详细技术资料下载

【技术实现步骤摘要】

本申请属于文本处理，涉及一种文本聚类方法、系统、电子设备及介质。

技术介绍

1、文本聚类是一种无监督的机器学习方法，主要依据聚类假设：同类的文档相似度较大，而不同类的文档相似度较小。由于不需要训练过程，以及不需要预先对文档手工标注类别，因此具有一定的灵活性和较高的自动化处理能力，在信息检索、文档管理、社交媒体分析、舆情分析、推荐系统等领域都有广泛的应用。它可以帮助组织和理解大规模文本数据，发现隐藏在数据中的模式和见解。

2、目前，主流的文本聚类方法主要包含两个技术路线，基于lda的生成式概率模型和基于k-means的距离聚类方法。lda文本聚类是一种用于分析文本数据的机器学习方法，其有助于理解文本数据中的潜在结构和主题，为文本数据的进一步分析和挖掘提供了有用的信息。但是，lda在使用时需要预先指定主题的数量，并且lda将文本视为词袋模型，忽略了词语之间的顺序信息，并且基于词袋的方法对于句子的表征能力较弱，这对于基于句子的文本聚类任务可能不够理想。k-means文本聚类是一种无监督机器学习方法，这种方法可以帮助发现文本数据中的隐藏结构和主题，有助于文本分类和信息检索等应用。但是，k-means在使用时同样需要预先指定主题的数量，并且其对初始簇中心点的选择和离群点敏感，需要多次运行算法并选择最佳结果，聚类结果不稳定。

技术实现思路

1、本申请提供一种文本聚类方法、系统、电子设备及介质，用于解决现有技术缺少一种不用预先指定主题且聚类处理效率高的技术问题。

2、第一

3、在第一方面的一种实现方式中，基于所述待聚类文本进行对比学习以提取所述待聚类文本数据点包括：获取训练好的对比学习模型；基于所述对比学习模型获取所述待聚类文本的句向量以作为所述待聚类文本数据点。

4、在第一方面的一种实现方式中，获取训练好的对比学习模型包括：基于bert模型获取训练文本中所有语句的第一特征向量与第二特征向量；基于所有所述第一特征向量和所述第二特征向量构建正负例数据集；基于所述正负例数据集优化对比损失以获取训练好的对比学习模型。

5、在第一方面的一种实现方式中，基于所述待聚类文本数据点构建低维数据点包括：计算所述待聚类文本数据点之间的欧式距离以构建距离矩阵；基于所述距离矩阵构建所述待聚类文本数据点的近邻图；对所述近邻图进行模糊化处理；最小化所述待聚类文本数据点在高维空间与低维空间之间的差异以构建所述低维数据点。

6、在第一方面的一种实现方式中，基于所述低维数据点进行分层密度聚集以获取数据簇包括：计算所述低维数据点与近邻点之间的核心距离以构建最小生成树；所述核心距离为欧式距离；基于所述最小生成树运行预设的层次聚类算法以获取聚类特征树。

7、在第一方面的一种实现方式中，基于所述数据簇的密度获取所述待聚类文本的聚类结果包括：筛选所述密度大于预设值的所述数据簇以作为所述聚类结果。

8、在第一方面的一种实现方式中，获取待聚类文本包括对所述待聚类文本进行数据清洗。

9、第二方面，本申请提供一种文本聚类系统，包括：获取模块，用于获取待聚类文本；对比学习模块，用于基于所述待聚类文本进行对比学习以提取所述待聚类文本数据点；构建模块，用于基于所述待聚类文本数据点构建低维数据点；分层聚集模块，用于基于欧式距离对所述低维数据点进行分层密度聚集以获取数据簇；聚类模块，用于基于所述数据簇的密度获取所述待聚类文本的聚类结果。

10、第三方面，本申请提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现本申请第一方面所述的文本聚类方法。

11、第四方面，本申请提供一种电子设备，包括：存储器，被配置为存储计算机程序；以及处理器，与所述存储器通信相连，所述处理器被配置为调用所述计算机程序以执行本申请第一方面所述的文本聚类方法。

12、本申请所述的一种文本聚类的方法、系统、电子设备及介质，具有以下有益效果：

13、首先，本申请不需要预先指定主题的数量，可以自动确定文本数据中的主题数量。

14、其次，本申请利用了对比学习模型的上下文理解和语言表征能力，能够捕捉文本数据中的深层语义结构，生成的主题通常具有高质量和高连贯性。

15、再次，本申请不依赖于词袋模型或者词频信息，能够更加有效处理长文本数据。

16、最后，本申请处理效率高，在保证效果的同时对聚类模型进行加速，并且可以通过并行gpu计算，应用于大规模文本的聚类。

本文档来自技高网...

【技术保护点】

1.一种文本聚类方法，其特征在于，包括：

2.根据权利要求1所述的文本聚类方法，其特征在于，基于所述待聚类文本进行对比学习以提取所述待聚类文本数据点包括：

3.根据权利要求2所述的文本聚类方法，其特征在于，获取训练好的对比学习模型包括：

4.根据权利要求1所述的文本聚类方法，其特征在于，基于所述待聚类文本数据点构建低维数据点包括：

5.根据权利要求1所述的文本聚类方法，其特征在于，基于欧式距离对所述低维数据点进行分层密度聚集以获取数据簇包括：

6.根据权利要求1所述的文本聚类方法，其特征在于，基于所述数据簇的密度获取所述待聚类文本的聚类结果包括：

7.根据权利要求1所述的文本聚类方法，其特征在于，获取待聚类文本还包括对所述待聚类文本进行数据清洗。

8.一种文本聚类系统，其特征在于，包括：

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于：该计算机程序被处理器执行时实现权利要求1至7中任一项所述的文本聚类方法。

10.一种电子设备，其特征在于，所述电子设备包括：</p>...

【技术特征摘要】

1.一种文本聚类方法，其特征在于，包括：

2.根据权利要求1所述的文本聚类方法，其特征在于，基于所述待聚类文本进行对比学习以提取所述待聚类文本数据点包括：

3.根据权利要求2所述的文本聚类方法，其特征在于，获取训练好的对比学习模型包括：

4.根据权利要求1所述的文本聚类方法，其特征在于，基于所述待聚类文本数据点构建低维数据点包括：

5.根据权利要求1所述的文本聚类方法，其特征在于，基于欧式距离对所述低维数据点进行分层密度聚集以获取数据簇包括：<...

【专利技术属性】
技术研发人员：王本强，
申请(专利权)人：上海蜜度科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人