The invention discloses a data association rule mining method and system, the method includes: the master node that data set is divided into a plurality of target data set and assigned to different slave nodes, mining of association rules to obtain local frequent itemsets based on the target data to the slave node and then received set. And the local frequent itemsets filtering; then by the master node transaction data sets and local frequent itemsets filtering after the slave node was assigned to frequent calculation, in order to things when a huge data set, still can more quickly calculate target frequent itemsets, improves the computational efficiency.
【技术实现步骤摘要】
一种海量数据关联规则挖掘方法及系统
本专利技术属于分布式计算与数据挖掘
,尤其涉及一种海量数据关联规则挖掘方法及系统。
技术介绍
大数据时代数据量从太字节(Terabyte,TB)级别跃升到PB(Petabyte,1PB=1024TB)级别,同时还在持续性地呈爆炸性增长;数据量在不断增长的过程中,人们逐渐意识到数据即是财富,尤其是对商业数据的分析更具有巨大的实用价值。关联规则分析作为数据挖掘的主要手段之一,是数据挖掘技术中不可或缺的一个重要组成部分,主要用于发现大型事务数据库中隐含的有价值的令人感兴趣的联系及规则。因此,对关联规则算法的研究具有非常重要的意义。作为一个最为典型的大数据处理平台,Hadoop是一个分布式系统基础架构,其最核心的设计就是:分布式文件系统(HadoopDistributedFileSystem,HDFS)和MapReduce。HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算。Apriori算法是一种寻找频繁项集的常用算法,其基本原理是使用逐层搜索的迭代方法,即用k项频繁项集去探索k+1项频繁项集,首先找出所 ...
【技术保护点】
一种海量数据关联规则挖掘方法,其特征在于,所述方法包括:主节点获取事务数据集,将所述事务数据集分割为多个目标数据集;从属节点接收所述主节点发送的目标数据集,并根据关联规则算法对接收到的目标数据集进行挖掘,获得所述目标数据集对应的局部频繁项集;所述从属节点根据所述目标数据集对应的局部最小支持度计数,对所述局部频繁项集进行过滤,获得过滤后的局部频繁项集;所述从属节点获取所述事务数据集,并根据所述事务数据集的全局最小支持度对过滤后的局部频繁项集进行筛选,获得全局频繁项集;所述从属节点根据所述全局最小支持度计数对所述全局频繁项集进行过滤,获得目标频繁项集。
【技术特征摘要】
1.一种海量数据关联规则挖掘方法,其特征在于,所述方法包括:主节点获取事务数据集,将所述事务数据集分割为多个目标数据集;从属节点接收所述主节点发送的目标数据集,并根据关联规则算法对接收到的目标数据集进行挖掘,获得所述目标数据集对应的局部频繁项集;所述从属节点根据所述目标数据集对应的局部最小支持度计数,对所述局部频繁项集进行过滤,获得过滤后的局部频繁项集;所述从属节点获取所述事务数据集,并根据所述事务数据集的全局最小支持度对过滤后的局部频繁项集进行筛选,获得全局频繁项集;所述从属节点根据所述全局最小支持度计数对所述全局频繁项集进行过滤,获得目标频繁项集。2.如权利要去1所述的方法,其特征在于,所述主节点获取事务数据集,将所述事务数据集分割为多个目标数据集,具体包括:所述主节点获取用户输入的事务数据集,将所述事务数据集的数据大小与预设的第一阈值进行比较;所述主节点在所述事务数据集的数据大小超过所述第一阈值时,对所述事务数据集进行分割,获取多个目标数据集。3.如权利要去2所述的方法,其特征在于,所述主节点在所述事务数据集的数据大小超过所述第一阈值时,对所述事务数据集进行分割,获取多个目标数据集之后,所述方法还包括:所述主节点获取各从属节点对应的标识信息,并根据所述标识信息将生成的键值对输出至对应的从属节点;其中,所述标识信息包括互联网协议地址、序列号或标识码中的一种或多种。4.如权利要去3所述的方法,其特征在于,所述从属节点根据所述目标数据集对应的局部最小支持度计数,对所述局部频繁项集进行过滤,获得过滤后的局部频繁项集之前,所述方法还包括:所述从属节点接收所述主节点发送的目标数据集,计算所述目标数据集对应的局部最小支持度计数;其中,所述局部最小支持度计数与所述全局最小支持度计数之间满足关系:局部最小支持度计数=全局最小支持度计数/目标数据集中事务数量。5.如权利要求4所述的方法,其特征在于,所述从属节点获取所述事务数据集,并根据所述事务数据集对应的全局最小支持度对过滤后的局部频繁项集进行筛选,获得全局频繁项集,具体包括:所述从属节点获取所述主节点发送的所述事务数据集以及过滤后的局部频繁项集,并对过滤后的局部频繁项集中各事务元素在所述事务数据集中的出现次数进行统计,获得统计结果;所述从属节点根据所述统计结果以及所述事务数据集对应的全局最小支持度计数对过滤后的局部...
【专利技术属性】
技术研发人员:胡辉,夏庆军,
申请(专利权)人:深圳金融电子结算中心有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。