当前位置: 首页 > 专利查询>湘潭大学专利>正文

一种基于Spark平台的多尺度关联规则方法技术

技术编号:18763980 阅读:29 留言:0更新日期:2018-08-25 10:34
本发明专利技术提供了一种基于Spark平台的多尺度关联规则方法,该方法包括:在物理服务器上构建具有虚拟机的HDFS文件系统和Spark平台,并将数据集上传到HDFS文件系统中;Spark平台从HDFS文件系统中读取数据并转换为弹性分布式数据集RDD,并将其存储在内存中;选择多个基准尺度划分数据集在Spark平台上并行运算,得到基准尺度数据集的频繁项集;进而通过尺度转换机制挖掘目标数据集的关联规则,并得到算法的精确度。本发明专利技术将传统关联规则算法同尺度转换机制结合,只需对基准尺度数据集进行一次挖掘就能得到目标尺度数据集下相关知识,大大提升了在尺度数据集上运算的精确度和效率,同时在Spark平台上实现进一步提高了数据处理速度。

【技术实现步骤摘要】
一种基于Spark平台的多尺度关联规则方法
本专利技术涉及数据挖掘及数据处理
,尤其涉及一种基于Spark平台的多尺度关联规则方法。
技术介绍
大数据时代已经到来,数据已经渗透到世界各个领域的个体与组织中,记录其生命周期的全过程,是不可或缺的生产要素。面对信息爆炸带来的海量数据,无论是科研领域、商业领域还是政府机构都视数据挖掘技术为必不可少的分析工具,数据挖掘研究也获得了前所未有的关注和重视。数据挖掘旨在从大量的、形式不一、内容驳杂的数据中,发现研究对象本质上性质的相似性和行为的一致性,从而凝练出一定的规则和知识,用于决策。关联规则挖掘是数据挖掘领域中应用广泛且实用意义较高的研究方向,旨在发掘数据项之间频现且有趣的的关联性和相关性。由于关联规则挖掘具有广泛的商业应用,故对其的研究一直热度不减。目前对于关联规则挖掘的研究越来越具体,研究者往往针对不断涌现的新问题和特定的应用领域,对关联规则挖掘展开研究,力图在较实际的层面上解决问题。如今,简单的“啤酒,尿布”型规则挖掘早已不能满足决策者的信息需求,多层次、多角度的关联模式分析才是解决实际问题的关键。多尺度科学是新崛起的一门学科,由于其描述了研究对象本质的结构性与层次性,在数学、物理学、生物学、化学、地学等领域掀起了一场跨学科研究热潮。目前,结合多尺度科学进行跨学科研究是大势所趋,数据挖掘领域也顺应这一趋势,在理论和方法上将多尺度科学与数据挖掘技术相结合,分析挖掘结果的多层次、多尺度内涵,可将普通的挖掘结果提升为多尺度知识,这将有利于在实践中形成多尺度决策;另外,多尺度科学中分层次、分尺度处理和分析研究对象的思想与并行运算的思想不谋而合,研究多尺度数据挖掘方法有利于在大数据环境下高效的处理实际问题。在2009年,Spark起初作为一个研究项目诞生于伯克利大学AMPLab,其采用的开发语言是一门将面向对象与函数式相结合的语言scala,核心代码部分最初是由63个scala文件构成。在2013年6月将该项目开源,并成为Apache基金项目,并于2014年2月,成为了Apache软件基金会的顶级开源项目。截止目前,已有200多家企业的开发人员对Spark做出了贡献,800多开发人员参与其中,是当前的大数据
中最活跃的开源项目之一。在实际的生产环境中,已经得到国内外很多著名企业的深度应用,并且Spark集群中节点的个数已经突破1000。在这短短的2年多的时间里,Spark在众多企业及开发人员的大力支持下,已经发布了近15个版本之多。ApacheSpark作为一种当今最流行的分布式计算框架之一,它是基于内存计算和并行计算的,非常适合大数据挖掘和机器学习。在速度方面,它是基于内存计算的,而Hadoop将中间计算结果写到HDFS文件系统,每次读写操作都要读写HDFS文件系统,所以Spark的运行效率比Hadoop要快上100倍,访问磁盘的速度也要比Hadoop快上10倍。因此Spark更适合运行比较复杂的算法,例如迭代计算、图计算等。不仅如此,Spark支持对数据集的多种操作,如map,filter,flatmap等,相比之下,MapReduce只支持map和reduce两种操作。总之,将数据挖掘算法结合多尺度学科在Spark平台上实现,既能够提升效率,又能够有效地利用资源。
技术实现思路
本专利技术的目的在于提供一种基于Spark平台的多尺度关联规则方法,将多尺度领域知识与关联规则算法相结合并在Spark平台上实现,在需要处理海量数据的时代背景下,与传统关联规则算法相比,本专利技术的执行效率和精确度都得到了很高的提升。本专利技术是通过以下步骤实现的。一种基于Spark平台的多尺度关联规则方法,包括:步骤1:在物理服务器上构建具有虚拟机的HDFS文件系统和Spark平台,并将数据集上传到HDFS文件系统中;步骤2:通过客户端向Spark平台提交作业,Spark平台从HDFS文件系统中读取数据并转换为弹性分布式数据集RDD,并将其存储在内存中;步骤3:选择多个基准尺度BS,确定每个基准尺度的数据集dsBS,由于每个RDD对应多个分区partition,所以在每个分区运行一个基准尺度数据集,各个分区并行运算;步骤4,各个partition中以最小支持度min_sup挖掘各个基准尺度数据集,得到各个基准尺度数据集频繁项集的集合FIi,并求取上述若干频繁项集集合的并集FIC作为目标尺度数据集dsSO频繁项集的候选项集集合;步骤5,通过克里格法确定基准尺度数据集对目标尺度数据集的权重矩阵λ,用于估算目标尺度数据集中频繁项集的支持度;步骤6,筛选目标尺度数据集最终的频繁项集,生成关联规则,并计算各个分区的算法精确度,进而求取精确度的均值作为整体实验结果。其中,所述步骤3中,根据用户选择的基准尺度数目来设定RDD中partition数目并启动一定数目的并发线程数读取数据。其中,所述步骤4中,对于多尺度关联规则算法,只对基准尺度数据集进行相关挖掘,求取基准尺度数据集频繁项集的集合,进而推导目标尺度数据集的频繁项集,进行频繁项集的多尺度转换。其中,所述步骤5中,首先通过克里格法定义线性估计量,然后计算线性估计量中的克里格系数λ,将目标尺度数据集中的支持度估计值和基准尺度数据集中的支持度分别对应于所定义线性方程的待估计值和样点数据。其中,所述步骤6中,将所有候选项集的估计支持度同最小支持度min_sup进行比较,选择估计支持度不小于min_sup的频繁项集组成目标尺度数据集的最终频繁项集集合FI,并依据最小置信度min_conf产生关联规则。本专利技术与现有技术相比,具有以下优点:本专利技术将多尺度领域的尺度转换机制与数据挖掘中的关联规则算法结合,以多尺度数据挖掘算法框架和具体的多尺度关联规则挖掘实现了知识的多尺度转换,从算法角度分析,算法在具备多尺度特性的数据集上实施,精确度和运行速度将有很大的提升,这具有相当大的实际意义。本分明还将多尺度关联规则算法在Spark平台上运行,在当下海量数据时刻都会产生的背景下,基于Spark平台的并行化模式将进一步提高数据处理效率。附图说明图1是本专利技术的方法流程图;图2是在Spark平台上的实现流程图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用于解释本专利技术,并不用于限定本专利技术。结合图1和图2,一种基于Spark平台的多尺度关联规则方法,包括以下步骤:步骤1:在物理服务器上构建具有虚拟机的HDFS文件系统和Spark平台,并将数据集上传到HDFS文件系统中;步骤2:通过客户端向Spark平台提交作业,Spark平台从HDFS文件系统中读取数据并转换为弹性分布式数据集RDD,并将其存储在内存中;步骤3:选择多个基准尺度BS,确定每个基准尺度的数据集dsBS,调用SparkContext方法的parallelize,将数据集并行化,转化为分布式的RDD,每个RDD由很多分区partition组成,所以在每个分区运行一个基准尺度数据集,各个分区并行运算。该过程根据用户选择的基准尺度数目来设定RDD中partition数目并启动一定数目的并发线程数读取数据。步骤本文档来自技高网
...

【技术保护点】
1.一种基于Spark平台的多尺度关联规则方法,其特征在于,包括以下步骤:步骤1:在物理服务器上构建具有虚拟机的HDFS文件系统和Spark平台,并将数据集上传到HDFS文件系统中;步骤2:通过客户端向Spark平台提交作业,Spark平台从HDFS文件系统中读取数据并转换为弹性分布式数据集RDD,并将其存储在内存中;步骤3:选择多个基准尺度BS,确定每个基准尺度的数据集dsBS,由于每个RDD对应多个分区partition,所以在每个分区运行一个基准尺度数据集,各个分区并行运算;步骤4:各个partition中以最小支持度min_sup挖掘各个基准尺度数据集,得到各个基准尺度数据集频繁项集的集合FIi,并求取上述若干频繁项集集合的并集FIC作为目标尺度数据集dsSO频繁项集的候选项集集合;步骤5:通过克里格法确定基准尺度数据集对目标尺度数据集的权重矩阵λ,用于估算目标尺度数据集中频繁项集的支持度;步骤6:筛选各个分区目标尺度数据集最终的频繁项集,生成关联规则,并计算各个分区的算法精确度,进而求取精确度的均值作为最终结果。

【技术特征摘要】
1.一种基于Spark平台的多尺度关联规则方法,其特征在于,包括以下步骤:步骤1:在物理服务器上构建具有虚拟机的HDFS文件系统和Spark平台,并将数据集上传到HDFS文件系统中;步骤2:通过客户端向Spark平台提交作业,Spark平台从HDFS文件系统中读取数据并转换为弹性分布式数据集RDD,并将其存储在内存中;步骤3:选择多个基准尺度BS,确定每个基准尺度的数据集dsBS,由于每个RDD对应多个分区partition,所以在每个分区运行一个基准尺度数据集,各个分区并行运算;步骤4:各个partition中以最小支持度min_sup挖掘各个基准尺度数据集,得到各个基准尺度数据集频繁项集的集合FIi,并求取上述若干频繁项集集合的并集FIC作为目标尺度数据集dsSO频繁项集的候选项集集合;步骤5:通过克里格法确定基准尺度数据集对目标尺度数据集的权重矩阵λ,用于估算目标尺度数据集中频繁项集的支持度;步骤6:筛选各个分区目标尺度数据集最终的频繁项集,生成关联规则,并计算各个分区的算法精确度,进而求取精确度的均值作为最终结果。2.如权利要求1所述的基于Spark平台的多尺度关联规则方法,其特征在于步骤3中,根据用户选择的基准尺度数目来设定RDD中partition数目并启动一定数目的并发线程数读取数据。3.如权利要求1所述的基于Spark平台的多尺度关联规则方法,其特征在于步骤4中,对于多尺度关联规则算法,只对基准尺度数据集进行相关挖掘,求取基准尺度数据集...

【专利技术属性】
技术研发人员:王灵矫赵博文
申请(专利权)人:湘潭大学
类型:发明
国别省市:湖南,43

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1