一种关联分析算法的并行化方法技术

技术编号:10198889 阅读:298 留言:0更新日期:2014-07-11 07:03
一种关联分析算法的并行化方法是针对一种经典的关联规则分析算法Apriori不能很好适应并行化的缺陷,设计了一种新的并行化方案。通过主控节点将计算任务进行分块,分配并分发给各个子计算节点。由各计算节点并行计算筛选频繁集,最后合并节点并返回结果统计,生成频繁集。再次分发频繁集,由各节点生成规则。由于每个计算节点仅处理一部分计算任务,解决了海量数据无法由单机读入内存进行处理和处理速度过慢的问题;且多个节点并行参与处理,有效提高了处理效率;并且对计算过程中的节点间的同步依赖、网络通讯负担过重、I/O操作过于频繁做了相应的改进,提高了数据库扫描和计算的速度。

【技术实现步骤摘要】
一种关联分析算法的并行化方法
本专利技术是针对一种经典的关联规则分析算法Apriori不能很好适应并行化的缺陷,设计了一种新的并行化方法,减少了节点间的同步依赖和网络通讯负担,提高了数据库扫描和计算的速度。属于分布式计算和云计算领域。
技术介绍
云计算(CloudComputing)是一种新兴的商业计算模型,它将计算任务分布在大量计算机构成的资源池上,使各种应用系统能够根据需要获取计算力、存储空间和各种软件服务,它是数据管理技术不断演进的结果。在上世纪末,分布式处理、并行处理和网格计算就已相当成熟,它们是云计算发展的技术基础,企业推动则是云计算快速发展的主要动力。目前,IT巨头正在相继开发云计算平台、云计算终端和服务器。关联规则算法用来描述事物之间的联系和挖掘事物之间的相关性,其核心是通过统计数据项获得频繁项集,被广泛应用于分类设计“捆绑式销售”仓储货存配置等领域,关联规则的挖掘已经成为数据挖掘中一个非常重要的研究方向。Apriori算法首先由Agrawal教授于1993年提出,是一种最有影响的挖掘布尔关联规则频繁项集的算法,其核心是基于两阶段频集思想的递推算法。该关联规则在分类上属本文档来自技高网...
一种关联分析算法的并行化方法

【技术保护点】
一种关联分析算法的并行化方法,其特征在于该方法采用主从结构,由一台服务器作为主节点处理所有的调度和协调,其余服务器作为子节点完成计算任务,该并行化方法的步骤如下:步骤1.启动所有服务器,将待分析的原始数据的数据库分别下载到所有服务器节点上;步骤2.第一阶段分析开始,主节点扫描自身数据库,统计出整个1‑项集以及事务总数,设定阀值,并将阀值发送到各个子节点上;步骤3.将整个1‑项集作为候选频繁1‑项集,由主节点将每一项的统计任务分派给一个空闲的子节点;步骤4.收到任务的各个子节点扫描自身数据库,统计该项的支持度,如果该项的支持度满足阀值则向主节点返回该项以及该项的支持度和事务编号集,如果不满足则删...

【技术特征摘要】
1.一种关联分析算法的并行化方法,其特征在于该方法采用主从结构,由一台服务器作为主节点处理所有的调度和协调,其余服务器作为子节点完成计算任务,该并行化方法的步骤如下:步骤1.启动所有服务器,将待分析的原始数据的数据库分别下载到所有服务器节点上;步骤2.第一阶段分析开始,主节点扫描自身数据库,统计出整个1-项集以及事务总数,设定支持度阈值,并将阀值发送到各个子节点上;步骤3.将整个1-项集作为候选频繁1-项集,由主节点将每一项的统计任务分派给一个空闲的子节点;步骤4.收到任务的各个子节点扫描自身数据库,统计该项的支持度,如果该项的支持度满足支持度阈值则向主节点返回该项以及该项的支持度和事务编号集,如果不满足则删除掉该项;步骤5.主节点将收到的返回结果加入频繁1-项集中,并连接这些项集生成按字典顺序排列的候选频繁2-项集,每生成一项,就连同其候选事务编号集一并分派给一个空闲的子节点;步骤6.收到任务的各个子节点扫描所给的候选事务编号...

【专利技术属性】
技术研发人员:张琳邵天昊王汝传韩志杰付雄季一木
申请(专利权)人:南京邮电大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1