基于MapReduce的并行频繁项集挖掘方法技术

技术编号:24574176 阅读:29 留言:0更新日期:2020-06-21 00:08
本发明专利技术提出了一种基于MapReduce的并行频繁项集挖掘方法,包括以下步骤:S1:输入待挖掘的数据集,并对数据集进行划分分区和筛选,得到频繁1项集,对频繁1项集中各个项排列生成F‑list;S2:通过负载均衡策略LBSBDG对F‑list均匀分组;估算F‑list中每一项的负载量,并根据每一项的负载量进行均匀分组,生成分组列表G‑list;S3:启动频繁k项挖掘任务,并行挖掘待挖掘的数据集中所有的频繁项集。本发明专利技术采用DiffNodeset数据结构,能够有效避免算法中存在的N‑list基数过大的问题;通过双向比较策略T‑wcs加快2项集的生成效率,以降低算法的时间复杂度。

Mining method of parallel frequent itemsets based on MapReduce

【技术实现步骤摘要】
基于MapReduce的并行频繁项集挖掘方法
本专利技术涉及数据挖掘
,具体涉及一种基于MapReduce的并行频繁项集挖掘方法。
技术介绍
数据挖掘又被称为知识发现KDD(knowledgediscoverindatabase),其目的在于发现大量数据集中有用的信息。常见的数据挖掘任务有关联规则挖掘、分类、聚类等。其中关联规则挖掘是其重要分支之一,通过关联规则的研究能够准确的找出有用的规则,这些规则对于企业管理上的决策具有巨大帮助。因此在大数据环境下,设计高效的频繁项集挖掘方法成为当今互联网时代最重要的挑战之一,快速有效地挖掘频繁项集对于揭示大量数据之间有趣的关联或相关联系,深入理解消费者的消费习惯等方面具有十分重要的意义。随着信息技术的高速发展,大数据环境下需要处理的数据高速增长传统的关联规则挖掘算法已经无法满足人们的需求,单纯的通过提升计算机硬件水平来满足人们对大数据分析与处理的需求显得尤为困难。因此,迫切需要有效的频繁项集挖掘算法来降低有用信息挖掘的成本,提高挖掘效率。
技术实现思路
>本专利技术旨在至少本文档来自技高网...

【技术保护点】
1.一种基于MapReduce的并行频繁项集数据挖掘方法,其特征在于:包括以下步骤:/nS1:输入待挖掘的数据集,并对数据集进行划分分区和筛选,得到频繁1项集,对频繁1项集中各个项排列生成f-list;/nS2:通过负载均衡策略LBSBDG对F-list均匀分组;估算F-list中每一项的负载量,并根据每一项的负载量进行均匀分组,生成分组列表G-list;/nS3:启动频繁k项挖掘任务,并行挖掘待挖掘数据集中所有的频繁项集。/n

【技术特征摘要】
1.一种基于MapReduce的并行频繁项集数据挖掘方法,其特征在于:包括以下步骤:
S1:输入待挖掘的数据集,并对数据集进行划分分区和筛选,得到频繁1项集,对频繁1项集中各个项排列生成f-list;
S2:通过负载均衡策略LBSBDG对F-list均匀分组;估算F-list中每一项的负载量,并根据每一项的负载量进行均匀分组,生成分组列表G-list;
S3:启动频繁k项挖掘任务,并行挖掘待挖掘数据集中所有的频繁项集。


2.根据权利要求1所述的挖掘方法,其特征在于:步骤S1还包括以下步骤:
S1-1:使用Hadoop默认的文件块策略,将原始数据集划分成大小相同的文件块Block;
S1-2:将文件块Block作为Map阶段的输入数据,通过调用Map函数以键值对<key=item,value=1>的形式统计出相应接点上的文件块中各项出现的次数;
S1-3:通过调用Combine函数将本节点中key值相同的value相加;
S1-4:将每个节点新得到的键值对传送给Reduce函数,进行合并;
S1-5:筛选出支持度大于最小支持度阈值min_sup的项组成频繁1项集F1,根据频繁1项集中各项的支持数降序排列生成全局F-list;
S1-6:将所得到的F-list保存到文件存储系统HDFS中。


3.根据权利要求1所述的挖掘方法,其特征在于:步骤S2还包括以下步骤:
S2-1:通过估计函数E(item)计算F-list中每一项的负载量Load,并将每一项的负载量按照降序排序方法生成L-list;
函数E(item)具体的计算方式如下所示:
E(item)=min{count(item),2n-1}
其中count(item)表示频繁项item的支持度,n为item在F-list中的位置;min{}表示取两者之间的较小者;
S2-2:构建分组列表G-list,对L-list中的每一项进行分组生成G-list,其中G-list包含H组;
S2-3:将L-list中的前H项作为初值依次添加到G-list每一组中,并将组号设置为0~(H-1),同时设置每一组的负载总量的初值为添加项的负载量;
S2-4:继续对L-list中未分组的项进行分组操作,且每次均读取H项,在划分之前先判定当前每一组的负载总量是否相同,如果每一组负载总量均相同则按顺序添加,即将H项分别添加到0~(H-1)组,如果每一组负载总量不相同则按逆序添加,即将H项分别添加到(H-1)~0组中,更新每一组的负载总量;
S2-5:重复步骤S2-3直到L-list中所有项均匀分配到相应组为止,如果最后一次取出的项个数少于H则将其依次添加到负载总量最小的组中;
S2-6:将所得到的分组G-list保存到文件存储系统HDFS中。


4.根据权利要求1所述的挖掘方法,其特征在于:步骤S3还包括以下步骤:
S3-1:在Map函数计算过程中,将处理后的数据依据G-list映射到集群中的不同计算...

【专利技术属性】
技术研发人员:毛伊敏张弛
申请(专利权)人:江西理工大学
类型:发明
国别省市:江西;36

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1