一种基于改进的博弈论粗糙集的文本三支聚类方法技术

技术编号:38748930 阅读:8 留言:0更新日期:2023-09-09 11:15
本发明专利技术提供了一种基于改进的博弈论粗糙集的文本三支聚类方法包括:采集文本数据,对文本数据进行预处理,建立文本数据集,根据文本数据集建立对应的粗糙集,对粗糙集进行聚类得到聚类信息,根据聚类信息对文本数据集进行文本聚类,得到若干个数据簇,基于改进的博弈论粗糙集的文本三支聚类对文本数据集进行聚类,处理了数据集中数值的缺失,显著降低了文本三支聚类的计算时间,提高了模型的通用性,有效且高效地提高了文本三支聚类的准确性。有效且高效地提高了文本三支聚类的准确性。有效且高效地提高了文本三支聚类的准确性。

【技术实现步骤摘要】
一种基于改进的博弈论粗糙集的文本三支聚类方法


[0001]本专利技术涉及数据挖掘
,特别涉及一种基于改进的博弈论粗糙集的文本三支聚类方法。

技术介绍

[0002]聚类技术被广泛应用于机器学习、数据分析和人工智能等领域中。它可以用来解决许多实际问题,例如市场细分、推荐系统、图像分析、文本分类等等。
[0003]聚类技术的核心思想是寻找数据集中的自然群组,这些群组由具有相似性质的数据点组成。聚类算法通常将数据点表示为n维向量,并使用距离度量来计算数据点之间的相似性。一旦相似性得到了测量,算法就可以将数据点分成不同的簇。
[0004]在现代数据科学中,聚类算法已经成为一种非常重要的技术,因为它可以处理大规模数据集并发现其中的结构。现在有许多聚类算法可供选择,包括层次聚类、k均值聚类、DBSCAN聚类等等。这些算法都有各自的优缺点,可以根据不同问题的需求进行选择。
[0005]由于数据的不完整、缺失或者损坏等原因,一般聚类的效果不是很好,三支聚类是处理由于缺失值导致聚类中不确定性的一个好的解决方法。该方法的核心思想是在不能够确定一个对象是否归属于一个簇时,将该对象放置于不能够确定的类中,推迟对该对象的决策。但在该方法中,有一个关键性的问题,即为如何确定三支聚类的阈值,一般采用固定值。
[0006]因此,本专利技术提供了一种基于改进的博弈论粗糙集的文本三支聚类方法。

技术实现思路

[0007]本专利技术一种基于改进的博弈论粗糙集的文本三支聚类方法,基于改进的博弈论粗糙集的文本三支聚类对文本数据集进行聚类,处理了数据集中数值的缺失,显著降低了文本三支聚类的计算时间,提高了模型的通用性,有效且高效地提高了文本三支聚类的准确性。
[0008]本专利技术提供了一种基于改进的博弈论粗糙集的文本三支聚类方法,包括:
[0009]步骤1:采集文本数据;
[0010]步骤2:对文本数据进行预处理,建立文本数据集;
[0011]步骤3:根据文本数据集建立对应的粗糙集;
[0012]步骤4:对粗糙集进行聚类得到聚类信息,根据聚类信息对文本数据集进行文本聚类,得到若干个数据簇。
[0013]在一种可实施的方式中,
[0014]所述步骤2,包括:
[0015]步骤21:剔除文本数据中出现频率小于预设频率的第一非重要词,得到目标文本数据;
[0016]步骤22:将预设数量的目标文本数据记为一类,建立标准数据集;
[0017]步骤23:剔除标准数据集中的属于预设词性的第二非重要词,建立文本数据集。
[0018]在一种可实施的方式中,
[0019]所述步骤3,包括:
[0020]步骤31:分别获取每一文本数据集对应的第一集特征;
[0021]步骤32:根据第一集特征将文本数据集划分为完整文本数据集和缺陷文本数据集;
[0022]步骤33:将完整文本数据集和缺陷文本数据集转换为完整粗糙集和缺陷粗糙集;
[0023]步骤34:将完整粗糙集和缺陷粗糙集统一记作粗糙集。
[0024]在一种可实施的方式中,
[0025]所述步骤4,包括:
[0026]步骤41:获取每一粗糙集对应的第二集特征;
[0027]步骤42:将第二集特征为缺陷特征的粗糙记作缺陷粗糙集,将第二集特征为完整特征的粗糙集记作完整粗糙集;
[0028]步骤43:获取缺陷粗糙集和完整粗糙集,建立聚类信息;
[0029]步骤44:根据聚类信息获取对应的聚类算法,根据聚类算法进行文本聚类得到若干个数据簇。
[0030]在一种可实施的方式中,
[0031]所述步骤44,包括:
[0032]步骤441:利用一致流形逼近与投影分别对每一缺陷粗糙集进行降维,得到对应的补偿粗糙集,根据补偿粗糙集生成补偿文本数据集;
[0033]步骤442:根据聚类信息在预设聚类算法库中提取目标聚类算法;
[0034]步骤443:利用目标聚类算法对补偿文本数据集和完整文本数据集进行聚类,得到若干个数据簇。
[0035]在一种可实施的方式中,
[0036]还包括:
[0037]获取缺陷粗糙集;
[0038]利用预设样本数据段遍历缺陷粗糙集,得到缺陷粗糙集上的缺陷数据段;
[0039]将缺陷粗糙集中除了缺陷数据段的数据段记作非缺陷数据段;
[0040]获取缺陷数据段与非缺陷数据段之间的数据比例,根据数据比例建立初始阈值组;
[0041]利用初始阈值组修正目标聚类算法,利用修正后的目标聚类算法对补偿文本数据集和完整文本数据集进行聚类,得到若干个数据簇。
[0042]在一种可实施的方式中,
[0043]还包括:
[0044]初始阈值组包含第一初始阈值和第二初始阈值,且第一初始阈值和第二初始阈值的取值范围为(0,1);
[0045]将初始阈值组与目标聚类算法相结合,在(0,1)范围内调节第一初始阈值和第二初始阈值,在调节过程中建立聚类结果趋势图;
[0046]在聚类结果趋势图中目标聚类结果对应的目标趋势点;
[0047]获取目标趋势点对应的第一取值和第二取值,利用第一取值和第二取值修正目标聚类算法。
[0048]在一种可实施的方式中,
[0049]还包括:
[0050]分别为每一数据簇进行命名,并传输到指定终端进行显示。
[0051]本专利技术可以实现的有益效果为:通过采集文本数据,然后对其进行预处理建立文本数据集,然后建立对应的粗糙集,通过对粗糙集进行聚类的方式从而实现了文本数据的聚类,得到了若干个数据簇,通过这样的方式可以在聚类前处理了数据集中数值的缺失,显著降低了文本三支聚类的计算时间,提高了模型的通用性,有效且高效地提高了文本三支聚类的准确性。
[0052]本专利技术的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本专利技术而了解。本专利技术的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
[0053]下面通过附图和实施例,对本专利技术的技术方案做进一步的详细描述。
附图说明
[0054]附图用来提供对本专利技术的进一步理解,并且构成说明书的一部分,与本专利技术的实施例一起用于解释本专利技术,并不构成对本专利技术的限制。在附图中:
[0055]图1为本专利技术实施例中一种基于改进的博弈论粗糙集的文本三支聚类方法的工作流程示意图;
[0056]图2为本专利技术实施例中一种基于改进的博弈论粗糙集的文本三支聚类方法的步骤3工作流程示意图。
具体实施方式
[0057]以下结合附图对本专利技术的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本专利技术,并不用于限定本专利技术。
[0058]实施例1
[0059]本实施例提供了一种基于改进的博弈论粗糙集的文本三支聚类方法本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于改进的博弈论粗糙集的文本三支聚类方法,其特征在于,包括:步骤1:采集文本数据;步骤2:对文本数据进行预处理,建立文本数据集;步骤3:根据文本数据集建立对应的粗糙集;步骤4:对粗糙集进行聚类得到聚类信息,根据聚类信息对文本数据集进行文本聚类,得到若干个数据簇。2.如权利要求1所述的一种基于改进的博弈论粗糙集的文本三支聚类方法,其特征在于,所述步骤2,包括:步骤21:剔除文本数据中出现频率小于预设频率的第一非重要词,得到目标文本数据;步骤22:将预设数量的目标文本数据记为一类,建立标准数据集;步骤23:剔除标准数据集中的属于预设词性的第二非重要词,建立文本数据集。3.如权利要求1所述的一种基于改进的博弈论粗糙集的文本三支聚类方法,其特征在于,所述步骤3,包括:步骤31:分别获取每一文本数据集对应的第一集特征;步骤32:根据第一集特征将文本数据集划分为完整文本数据集和缺陷文本数据集;步骤33:将完整文本数据集和缺陷文本数据集转换为完整粗糙集和缺陷粗糙集;步骤34:将完整粗糙集和缺陷粗糙集统一记作粗糙集。4.如权利要求1所述的一种基于改进的博弈论粗糙集的文本三支聚类方法,其特征在于,所述步骤4,包括:步骤41:获取每一粗糙集对应的第二集特征;步骤42:将第二集特征为缺陷特征的粗糙记作缺陷粗糙集,将第二集特征为完整特征的粗糙集记作完整粗糙集;步骤43:获取缺陷粗糙集和完整粗糙集,建立聚类信息;步骤44:根据聚类信息获取对应的聚类算法,根据聚类算法进行文本聚类得到若干个数据簇。5.如权利要求4所述的一种基于改进的...

【专利技术属性】
技术研发人员:徐森陆湘文徐秀芳花小朋朱锦新许贺洋郭乃瑄嵇宏伟姜陈雨陈思博蔡娜
申请(专利权)人:盐城工学院技术转移中心有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1