当前位置: 首页 > 专利查询>常州大学专利>正文

一种基于特征递增的关联规则挖掘算法制造技术

技术编号:39244477 阅读:6 留言:0更新日期:2023-10-30 11:56
本发明专利技术提供了一种基于特征递增的关联规则挖掘算法,包括:获取数据集,其中,数据集中包含N个特征,每个特征包含多个特征数值;扫描数据集,根据各个特征代表的含义,将特征数值进行分箱处理,得到特征种类;基于特征及特征种类,确定研究目标,其中,研究目标中包含M个特征;依次计算M个特征以外的N

【技术实现步骤摘要】
一种基于特征递增的关联规则挖掘算法


[0001]本专利技术涉及数据处理
,尤其涉及一种基于特征递增的关联规则挖掘算法。

技术介绍

[0002]数据量的爆炸式增长和计算能力的快速提升为数据挖掘提供了巨大的机遇和挑战。数据挖掘技术通过从大规模数据集中提取有价值的信息和模式,为决策制定、预测分析、市场营销等领域提供了强大的支持,数据信息不仅是行业发展的产物,也反过来推动产业技术的创新。因此,根据数据样本特征具备的意义,挖掘其隐含的信息,结合实际进行合理的应用,从而创造出巨大的工业价值。
[0003]关联规则挖掘算法作为数据挖掘的重要方法之一,在各领域得到广泛的应用,最常使用的关联规则挖掘算法是Apriori算法、FP

Growth算法和Eclat算法。Apriori算法核心思想是基于频繁项集的性质,通过逐层扫描数据集,生成候选项集并计算支持度,从而找到频繁项集和关联规则。FP

Growth算法则是通过构建一棵FP树来压缩事务数据库,然后利用该树来快速挖掘频繁项集和关联规则。Eclat算法通过构建事务数据库的垂直数据格式,并利用递归的方式搜索等价类来挖掘频繁项集和关联规则。但三种算法本质上都是依据事务频次来确定频繁项集,难以用于频次较少但重要的特征,因此,上述三种算法多用在无序记录的挖掘分析,在具有实际意义和有序的数据集中表现不佳,且不适用于包含连续型特征的大数据集。

技术实现思路

[0004]有鉴于此,本专利技术提供一种基于特征递增的关联规则挖掘算法,以解决上述问题。
[0005]根据本专利技术的第一方面,提供一种基于特征递增的关联规则挖掘算法,其特征在于,包括:获取数据集,其中,数据集中包含N个特征,每个特征包含多个特征数值;扫描数据集,根据各个特征代表的含义,将特征数值进行分箱处理,得到特征种类;基于特征及特征种类,确定研究目标,其中,研究目标中包含M个特征;依次计算M个特征以外的N

M个特征中不同特征种类组合对研究目标的支持度、置信度和提升度,得到各个项集及关联规则;计算完成后,合并所有项集生成的关联规则,可得到各个项集对研究目标的提升度以及各提升度的关联规则组合。
[0006]在本专利技术的另一实现方式中,研究目标为一个特征的单个特征种类、一个特征的多个特征种类及多个特征间的特征种类组合中的一项。
[0007]在本专利技术的另一实现方式中,依次计算M个特征以外的N

M个特征中不同特征种类组合对研究目标的支持度、置信度和提升度,得到各个项集及关联规则,包括:从M个特征以外的N

M个特征中依次选取1至N

M个特征,分别进行特征组合,得到各个特征组合结果;基于特征组合结果,在数据集中查找对应的特征下的特征种类组合结果;计算各个特征种类组合结果对研究目标的支持度、置信度和提升度,得到各个项集及关联规则。
[0008]在本专利技术的另一实现方式中,从M个特征以外的N

M个特征中依次选取1至N

M个特征,分别进行特征组合,得到各个特征组合结果,包括:(1)从M个特征以外的N

M个特征中选取1个特征,得到前件事件个数为1的特征组合结果;(2)从M个特征以外的N

M个特征中选取2个特征进行特征组合,得到前件事件个数为2的特征组合结果;(3)从M个特征以外的N

M个特征中选取J个特征进行特征组合,得到前件事件个数为J的特征组合结果;重复步骤(3),直至无新的特征的加入,得到各个特征组合结果。
[0009]在本专利技术的另一实现方式中,基于特征组合结果,在数据集中查找对应的特征下的特征种类组合结果,包括:在数据集中确定特征组合结果中包含的各个特征所在的列;在特征组合结果中包含的各个特征所在的列中查找特征种类组合结果。
[0010]在本专利技术的另一实现方式中,基于特征递增的关联规则挖掘算法还包括:预设支持度阈值和置信度阈值;将特征组合结果中包含的各个特征所在的列中不满足支持度阈值和置信度阈值的特征种类进行删除处理;对特征组合结果中包含的各个特征所在的列中满足支持度阈值和置信度阈值的特征种类进行组合计算处理。
[0011]在本专利技术的基于特征递增的关联规则挖掘算法中,首先根据数据实际意义进行分箱,确定研究目标后,通过支持度、置信度以及提升度指标生成关联规则,紧接着通过对关联规则的整合,可挖掘数据间的隐含信息;通过分箱构建频繁项集用于关联规则挖掘的方法,解决了传统频繁项集难以处理小样本种类的问题,以提升度增长式的方法分析了不同特征种类组合与所求量的关系,深层次挖掘数据之间的关系,并通过预设支持度与置信度阈值,减少冗余信息。
附图说明
[0012]为了更清楚的说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,通过阅读下文实施方式的详细描述,方案中的优点和益处对于本领域的技术人员变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本专利技术的限制。在附图中:
[0013]图1为本专利技术的一个实施例的基于特征递增的关联规则挖掘算法的步骤流程图。
[0014]图2为本专利技术的另一实施例的基于特征递增的关联规则挖掘算法的步骤流程图。
[0015]图3为本专利技术的另一实施例的特征增加过程示意图。
具体实施方式
[0016]为了使本领域的人员更好地理解本专利技术实施例中的技术方案,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、详细地描述,显然,所描述的实施例仅是本专利技术实施例一部分实施例,而不是全部的实施例。基于本专利技术实施例中的实施例,本领域普通技术人员所获得的所有其他实施例,都应当属于本专利技术实施例保护的范围。
[0017]图1为本专利技术实施例提供的一种基于特征递增的关联规则挖掘算法的步骤流程图,如图1所示,本实施例主要包括以下步骤:
[0018]S101、获取数据集,其中,数据集中包含N个特征,每个特征包含多个特征数值。
[0019]示例性地,以数据集中包含4个特征A,B,C,D为例,每个特征有其对应的多个特征数值,如表1所示:
[0020]序号ABCDT11111T22321T32431T43541T54552T65662T76672T87682T97793T1087103
[0021]表1
[0022]其中,数据集中的特征数量及特征数值数量根据用户的需求调整,本申请对于数据集中包含的特征数量及每个特征下包含的特征数值数量不作具体限制。
[0023]S102、扫描所述数据集,根据各个特征代表的含义,将特征数值进行分箱处理,得到特征种类。
[0024]示例性地,可使用的分箱方法包括自定义分箱、等距分箱、等频分箱、聚类分箱、基于决策树的分箱以及基于信息增益的分箱等。其中,自定义分箱多指根据问题所处背景,结合专家经验进行数据的分类处理、等本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于特征递增的关联规则挖掘算法,其特征在于,包括:获取数据集,其中,所述数据集中包含N个特征,每个特征包含多个特征数值;扫描所述数据集,根据各个特征代表的含义,将所述特征数值进行分箱处理,得到特征种类;基于所述特征及所述特征种类,确定研究目标,其中,所述研究目标中包含M个特征;依次计算所述M个特征以外的N

M个特征中不同特征种类组合对所述研究目标的支持度、置信度和提升度,得到各个项集及关联规则;计算完成后,合并所有项集生成的关联规则,可得到各个项集对所述研究目标的提升度以及各提升度的关联规则组合。2.根据权利要求1所述的方法,其特征在于,所述研究目标为一个特征的单个特征种类、一个特征的多个特征种类及多个特征间的特征种类组合中的一项。3.根据权利要求1所述的方法,其特征在于,所述依次计算所述M个特征以外的N

M个特征中不同特征种类组合对所述研究目标的支持度、置信度和提升度,得到各个项集及关联规则,包括:从所述M个特征以外的N

M个特征中依次选取1至N

M个特征,分别进行特征组合,得到各个特征组合结果;基于所述特征组合结果,在所述数据集中查找对应的特征下的特征种类组合结果;计算各个特征种类组合结果对所述研究目标的支持度、置信度和提升度,得到各个项集及关联规则。...

【专利技术属性】
技术研发人员:王相褚宪翔陈林
申请(专利权)人:常州大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1