基于决策树剪枝加强的关联规则的数据分类方法技术

技术编号:36030438 阅读:48 留言:0更新日期:2022-12-21 10:31
本发明专利技术公开了一种基于决策树剪枝加强的关联规则的数据分类方法,所述方法包括:对于待分类的数据运用关联规则挖掘算法,生成关联规则集;并对于待分类的数据运用决策树剪枝算法,生成分类规则集;对所述分类规则集中的每条规则进行置信度迭代筛选;合并所述关联规则集和筛选后的分类规则集,得到最终的规则集;根据最终的规则集得到所述数据的分类结果。应用本发明专利技术可以提取更完整的关联规则集,解决了传统关联规则挖掘算法的非频繁规则的遗漏问题,也可避免决策树分类算法的规则数量过少的问题,从而提高规则分类精度;且缓解了规则过拟合的问题。拟合的问题。拟合的问题。

【技术实现步骤摘要】
基于决策树剪枝加强的关联规则的数据分类方法


[0001]本专利技术涉及数据分类
,特别是指一种基于决策树剪枝加强的关联规则的数据分类方法。

技术介绍

[0002]目前关联规则挖掘和决策树都是数据分类的经典方法;其中,关联规则挖掘是数据挖掘技术的重要研究内容,其核心任务为通过递归搜索数据库,得到满足最小支持度的项集。目前,关联规则挖掘已被运用于数据分类中,基本原理是将属性和类别标签联系在一起,强调频繁模式与类别标签之间的关联。
[0003]决策树分类算法是利用数据集生成一棵在特征空间上的条件概率分布树,是一系列关联规则的集合,侧重于数据类别之间的差异,可用于对数据集分类。在生成决策树时,决策树分支节点所包含的样本应尽可能属于同一类别,通常需要一定指标来表示特征的分类能力,信息熵就是最常用的一种指标,用来表示随机变量不确定性的度量。典型决策树分类算法包括ID3(Iterative Dichotomiser 3)、C4.5(Iterative Dichotomiser 4.5)、CART(Classification And Regression Tree)等。
[0004]然而,现有的关联规则挖掘算法和决策树分类算法存在着明显的缺点:关联规则算法对频繁项的搜索能够有效获取规则,但同时也易出现非频繁规则的遗漏问题;决策树分类方法利用剪枝提高了分类精度,但是规则数量明显减少。且两者都存在着规则过拟合的问题。

技术实现思路

[0005]有鉴于此,本专利技术的目的在于提出一种基于决策树剪枝加强的关联规则的数据分类方法,利用决策树剪枝策略提取分类规则,并对关联规则集进行修正补充,旨在提取更完整的关联规则集,解决了传统关联规则挖掘算法的非频繁规则的遗漏问题,也可避免决策树分类算法的规则数量过少的问题,从而提高规则分类精度;且缓解了规则过拟合的问题。
[0006]基于上述目的,本专利技术提供一种基于决策树剪枝加强的关联规则的数据分类方法,包括:
[0007]对于待分类的数据运用关联规则挖掘算法,生成关联规则集;并
[0008]对于待分类的数据运用决策树剪枝算法,生成分类规则集;
[0009]对所述分类规则集中的每条规则进行置信度迭代筛选;
[0010]合并所述关联规则集和筛选后的分类规则集,得到最终的规则集;
[0011]根据最终的规则集得到所述数据的分类结果。
[0012]较佳地,所述对于待分类的数据运用关联规则挖掘算法,生成关联规则集,具体包括:
[0013]利用挖掘算法处理数据集DB得到频繁模式;
[0014]将频繁模式进行置信度筛选,得到关联规则集;
[0015]其中,所示数据集DB是根据待分类的数据形成的。
[0016]较佳地,所述对于待分类的数据运用决策树剪枝算法,生成分类规则集,具体包括:
[0017]根据数据集DB中划分的D
S
计算信息增益构建决策树;
[0018]将数据集DB中划分的D
V
作为验证集对构建的决策树进行剪枝,得到分类规则集。
[0019]较佳地,所述对所述分类规则集中的每条规则进行置信度迭代筛选,具体包括:
[0020]对于所述分类规则集中的一条规则,判断该规则的置信度是否满足要求;若是,则判断该规则为筛选出的规则加入集合A中;否则,
[0021]在判断该规则的长度l满足要求后,搜索该规则的(l

1)

规则集合B,并对集合B中的每条规则执行置信度迭代筛选。
[0022]较佳地,所述根据最终的规则集得到所述数据的分类结果,具体包括:
[0023]对于最终的规则集中的每条规则,根据该规则中模式与分类标签的对应关系,确定该分类标签为该模式所属数据的分类结果。
[0024]较佳地,所述根据最终的规则集得到所述数据的分类结果,还包括:
[0025]若所述数据中有一条数据出现多种规则冲突情况,则:
[0026]在该数据匹配的规则中对于涉及的每个分类标签,将该分类标签对应的各规则的置信度求和,得到对应该分类标签的权重系数和;将权重系数和最大的分类标签作为该数据的最终分类结果。
[0027]本专利技术还提供一种电子设备,包括中央处理单元、信号处理和存储单元,以及存储在信号处理和存储单元上并可在中央处理单元上运行的计算机程序,其中所述中央处理单元执行所述程序时实现如上所述的基于决策树剪枝加强的关联规则的数据分类方法。
[0028]本专利技术还提供一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序可被至少一个处理器所执行,以使所述至少一个处理器执行如上所述的基于决策树剪枝加强的关联规则的数据分类方法的步骤。
[0029]本专利技术的技术方案中,对于待分类的数据运用关联规则挖掘算法,生成关联规则集;并对于待分类的数据运用决策树剪枝算法,生成分类规则集;对所述分类规则集中的每条规则进行置信度迭代筛选;合并所述关联规则集和筛选后的分类规则集,得到最终的规则集;根据最终的规则集得到所述数据的分类结果。由于决策树分类规则具备较高的信息增益,而关联规则数据频繁程度较高,故决策树分类规则集必然包含关联规则集遗漏的部分非频繁规则,而后者也必然包含前者因剪枝遗漏的规则,故对决策树分类规则集和关联规则集取并集可得到更完整的规则集。
[0030]此外,在关联规则分类中,由于过度重视频繁项,规则过拟合通常表现为规则包含更多高频项,而部分数据在分类时无法精准匹配规则,易出现错误分类或者无法分类的情况,而本专利技术的技术方案在关联规则得基础上,利用决策树分类规则对规则集进行补充,完善规则集得同时在一定程度上缓解了规则过拟合的问题。
[0031]进一步,本专利技术的技术方案在决策树剪枝得到的分类规则集的基础上,对分类规则集的规则进行置信度迭代筛选,进一步降低了过拟合的风险,得到的规则具备更高的泛化能力。
附图说明
[0032]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0033]图1为本专利技术实施例提供的一种决策树剪枝加强的关联规则的数据分类方法流程图;
[0034]图2为本专利技术实施例提供的一种利用关联规则挖掘算法对数据集DB进行处理的方法流程图;
[0035]图3为本专利技术实施例提供的一种利用决策树剪枝算法对数据集DB进行处理的方法流程图;
[0036]图4为本专利技术实施例提供的利用后剪枝策略构建的分类决策树的示意图;
[0037]图5为本专利技术实施例提供的一种对规则执行置信度迭代筛选的方法流程图;
[0038]图6、7为本专利技术提供的多种算法进行数据分类的实验结果对比图;
[0039]图8为本本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于决策树剪枝加强的关联规则的数据分类方法,包括:对于待分类的数据运用关联规则挖掘算法,生成关联规则集;并对于待分类的数据运用决策树剪枝算法,生成分类规则集;对所述分类规则集中的每条规则进行置信度迭代筛选;合并所述关联规则集和筛选后的分类规则集,得到最终的规则集;根据最终的规则集得到所述数据的分类结果。2.根据权利要求1所述的方法,其特征在于,所述对于待分类的数据运用关联规则挖掘算法,生成关联规则集,具体包括:利用挖掘算法处理数据集DB得到频繁模式;将频繁模式进行置信度筛选,得到关联规则集;其中,所示数据集DB是根据待分类的数据形成的。3.根据权利要求2所述的方法,其特征在于,所述对于待分类的数据运用决策树剪枝算法,生成分类规则集,具体包括:根据数据集DB中划分的D
S
计算信息增益构建决策树;将数据集DB中划分的D
V
作为验证集对构建的决策树进行剪枝,得到分类规则集。4.根据权利要求1所述的方法,其特征在于,所述对所述分类规则集中的每条规则进行置信度迭代筛选,具体包括:对于所述分类规则集中的一条规则,判断该规则的置信度是否满足要求;若是,则判断该规则为筛选出的规则加入集合A中;否则,在判断该规则的长度l满足要求后,搜索该规则的(l

1)

规则集合B,并对集合B中的每条规则执行置信度迭代筛选。5.根据权利要求4所述的方法,其特征在于,所述规则的置信度具体根据如下公式1计算得到:其中,P(L
i
|X)表示计算得到的规则“X

L
i”的置信度,P(X|L
i
)表示规则“X

L
i”的支持度,P(L
i
)表示分类标签为L
i
的数据在数据集DB中的占比。6.根据权利要求1所述的方法,其特征在于,所述合并所述关联规则集和筛选后的分类规则集,得到最终的规则集,具体包括:对每个分类...

【专利技术属性】
技术研发人员:黄健范劭博张中杰
申请(专利权)人:中国人民解放军国防科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1