当前位置: 首页 > 专利查询>衢州学院专利>正文

高维度大数据的极大频繁项集确定方法以及确定装置制造方法及图纸

技术编号:34243337 阅读:49 留言:0更新日期:2022-07-24 09:46
本发明专利技术公开了一种高维度大数据的极大频繁项集确定方法以及确定装置,该方法包括:获取待确定事务集,待确定事务集中包括高维度大数据;对高维度大数据执行数据筛选操作,获得处理后大数据;对处理后大数据执行数据补全操作,获得补全后大数据;计算每个补全后大数据的数据支持度;基于数据支持度对补全后大数据进行分类,获得分类后数据;对分类后数据进行分析,确定高维度大数据中的极大频繁项集。通过根据大数据的关联特点以及数据分析特性,在分析前对高维度大数据进行降维优化处理以及数据补全处理,从而有效降低后续大数据分析的计算工作量,提高后续大数据分析的分析效率,同时有效提高分析精确性。同时有效提高分析精确性。同时有效提高分析精确性。

Method and device for determining extremely frequent itemsets of high-dimensional big data

【技术实现步骤摘要】
高维度大数据的极大频繁项集确定方法以及确定装置


[0001]本专利技术涉及大数据分析
,具体地涉及一种高维度大数据的极大频繁项集确定方法、一种高维度大数据的极大频繁项集确定装置以及一种计算机可读存储介质。

技术介绍

[0002]在人们的日常生活中,大数据被越来越多的应用,针对大数据的分析需求也越来越多。在现有大数据分析的流程中,需要首先查找出大数据中的频繁项集,然后进一步计算分析频繁项集中每个数据的关联规则,从而获得大数据分析结果,因此如何准确确定大数据中的频繁项集成为了大数据分析的关键。
[0003]随着大数据技术的不断应用,被输入现有大数据分析方法中的数据体量不断增大,数据维度也在不断增多,而现有的分析技术已经越来越无法满足针对高维度大数据的分析需求,现有的关联规则挖掘方法主要包括基于精确算法的方法以及基于启发式算法的方法,然而在实际应用过程中:
[0004]基于精确算法的方法在面对高维海量大数据时,时间复杂度与存储空间的爆炸将导致计算时间的大量增加以及存储空间的极大占用,因此无法满足实际需求;r/>[0005]基本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种高维度大数据的极大频繁项集确定方法,其特征在于,所述方法包括:获取待确定事务集,所述待确定事务集中包括高维度大数据;对所述高维度大数据执行数据筛选操作,获得处理后大数据;对所述处理后大数据执行数据补全操作,获得补全后大数据;计算每个补全后大数据的数据支持度;基于所述数据支持度对所述补全后大数据进行分类,获得分类后数据;对所述分类后数据进行分析,确定所述高维度大数据中的极大频繁项集。2.根据权利要求1所述的方法,其特征在于,所述对所述高维度大数据执行单项数据筛选,获得处理后大数据,包括:在所述待确定事务集中确定多个项集,其中每个项集包括多个高维度大数据;依次计算每个项集在所述待确定事务集中的出现概率;基于所述出现概率从所述多个项集中筛选出至少一个频繁项集;获取每个频繁项集的数据项数;基于所述数据项数确定单项数据集和多项数据集;对所述单项数据集和所述多项数据集执行单项数据筛选,获得处理后大数据。3.根据权利要求2所述的方法,其特征在于,所述对所述单项数据集和所述多项数据集执行数据筛选操作,获得处理后大数据,包括:基于所述单项数据集生成对应的二项数据集;计算确定每个二项数据集的第一支持度,以及每个多项数据集的第二支持度;基于预设支持度阈值和所述第一支持度对所述二项数据集进行筛选,以及基于所述预设支持度阈值和所述第二支持度对所述多项数据集进行筛选,获得处理后大数据。4.根据权利要求3所述的方法,其特征在于,所述对所述处理后大数据执行数据补全操作,获得补全后大数据,包括:获取预设数据项数;基于所述预设数据项数和所述单项数据集对所述处理后大数据执行数据补全操作,获得补全后大数据。5.根据权利要求1所述的方法,其特征在于,所述分类后数据包括初始频繁项集和初始非频繁项集,所述对所述分类后数据进行分析,确定所述高维度大数据中的极大频繁项集,包括:对所述初始频繁项集执行进化计算操作,获得进化后数据集;基于预设致死基因库对所述初始非频繁项集中的每个数据执行基因修复操作,获得修复后数据集;判断所述进化后数据中是否包含第一频繁项集和第一非频繁项集,以及判断所述修复后数据集中是否包含第二频繁项集和第二非频繁项集;若是,基于所述第一频繁项集和所述第二频繁项集创建新的初始频繁项集,基于所述第一非频繁项集和所述第二非频繁项集创建新的初始非频繁项集,对所述预设致死基因库进行更新,获得新的致死基因库,对所述新的初始频繁项集执行所述进化计算操作,以及基于所述新的致死基因库对所述新的初始非频繁项集执行所述基因修复操作;否则,将所述进化后数据集作为所述高维度大数据的极大频繁项集。
6.根据权利要求5所述的方法,其特征在于,所述对所述初始频繁项集执行进化计算操作,获得进化后数据集,包括:对所述初始频繁项集进行编码,获得对应的编码信息;确定所述编码信息中的最优编码;基于所述最优编码对所述编码信息执行编码交叉处理,获得处理后编码信息;对所述处理后编码信息执行随机变异处理,获得进化后数据集。7.一种高维度大数据的极大频繁项集确定装置,其特征在于,所述装置包括:数据获取单元,用于获取待确定事务集,...

【专利技术属性】
技术研发人员:张亚龙郁炜
申请(专利权)人:衢州学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1