一种基于改进的博弈论粗糙集的文本三支聚类方法技术

技术编号：38748930 阅读：8 留言：0更新日期：2023-09-09 11:15

本发明专利技术提供了一种基于改进的博弈论粗糙集的文本三支聚类方法包括：采集文本数据，对文本数据进行预处理，建立文本数据集，根据文本数据集建立对应的粗糙集，对粗糙集进行聚类得到聚类信息，根据聚类信息对文本数据集进行文本聚类，得到若干个数据簇，基于改进的博弈论粗糙集的文本三支聚类对文本数据集进行聚类，处理了数据集中数值的缺失，显著降低了文本三支聚类的计算时间，提高了模型的通用性，有效且高效地提高了文本三支聚类的准确性。有效且高效地提高了文本三支聚类的准确性。有效且高效地提高了文本三支聚类的准确性。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于改进的博弈论粗糙集的文本三支聚类方法

[0001]本专利技术涉及数据挖掘
，特别涉及一种基于改进的博弈论粗糙集的文本三支聚类方法。

技术介绍

[0002]聚类技术被广泛应用于机器学习、数据分析和人工智能等领域中。它可以用来解决许多实际问题，例如市场细分、推荐系统、图像分析、文本分类等等。
[0003]聚类技术的核心思想是寻找数据集中的自然群组，这些群组由具有相似性质的数据点组成。聚类算法通常将数据点表示为n维向量，并使用距离度量来计算数据点之间的相似性。一旦相似性得到了测量，算法就可以将数据点分成不同的簇。
[0004]在现代数据科学中，聚类算法已经成为一种非常重要的技术，因为它可以处理大规模数据集并发现其中的结构。现在有许多聚类算法可供选择，包括层次聚类、k均值聚类、DBSCAN聚类等等。这些算法都有各自的优缺点，可以根据不同问题的需求进行选择。
[0005]由于数据的不完整、缺失或者损坏等原因，一般聚类的效果不是很好，三支聚类是处理由于缺失值导致聚类中不确定性的一个好的解决方法。该方法的核心思想是在不能够确定一个对象是否归属于一个簇时，将该对象放置于不能够确定的类中，推迟对该对象的决策。但在该方法中，有一个关键性的问题，即为如何确定三支聚类的阈值，一般采用固定值。
[0006]因此，本专利技术提供了一种基于改进的博弈论粗糙集的文本三支聚类方法。

技术实现思路

[0007]本专利技术一种基于改进的博弈论粗糙集的文本三支聚类方法，基于改进的博弈论粗糙集的文...

【技术保护点】

【技术特征摘要】
1.一种基于改进的博弈论粗糙集的文本三支聚类方法，其特征在于，包括：步骤1：采集文本数据；步骤2：对文本数据进行预处理，建立文本数据集；步骤3：根据文本数据集建立对应的粗糙集；步骤4：对粗糙集进行聚类得到聚类信息，根据聚类信息对文本数据集进行文本聚类，得到若干个数据簇。2.如权利要求1所述的一种基于改进的博弈论粗糙集的文本三支聚类方法，其特征在于，所述步骤2，包括：步骤21：剔除文本数据中出现频率小于预设频率的第一非重要词，得到目标文本数据；步骤22：将预设数量的目标文本数据记为一类，建立标准数据集；步骤23：剔除标准数据集中的属于预设词性的第二非重要词，建立文本数据集。3.如权利要求1所述的一种基于改进的博弈论粗糙集的文本三支聚类方法，其特征在于，所述步骤3，包括：步骤31：分别获取每一文本数据集对应的第一集特征；步骤32：根据第一集特征将文本数据集划分为完整文本数据集和缺陷文本数据集；步骤33：将完整文本数据集和缺陷文本数据集转换为完整粗糙集和缺陷粗糙集；步骤34：将完整粗糙集和缺陷粗糙集统一记作粗糙集。4.如权利要求1所述的一种基于改进的博弈论粗糙集的文本三支聚类方法，其特征在于，所述步骤4，包括：步骤41：获取每一粗糙集对应的第二集特征；步骤42：将第二集特征为缺陷特征的粗糙记作缺陷粗糙集，将第二集特征为完整特征的粗糙集记作完整粗糙集；步骤43：获取缺陷粗糙集和完整粗糙集，建立聚类信息；步骤44：根据聚类信息获取对应的聚类算法，根据聚类算法进行文本聚类得到若干个数据簇。5.如权利要求4所述的一种基于改进的...

【专利技术属性】
技术研发人员：徐森，陆湘文，徐秀芳，花小朋，朱锦新，许贺洋，郭乃瑄，嵇宏伟，姜陈雨，陈思博，蔡娜，
申请(专利权)人：盐城工学院技术转移中心有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人