一种基于Spark平台的多尺度关联规则方法技术

技术编号：18763980 阅读：29 留言：0更新日期：2018-08-25 10:34

本发明专利技术提供了一种基于Spark平台的多尺度关联规则方法，该方法包括：在物理服务器上构建具有虚拟机的HDFS文件系统和Spark平台，并将数据集上传到HDFS文件系统中；Spark平台从HDFS文件系统中读取数据并转换为弹性分布式数据集RDD，并将其存储在内存中；选择多个基准尺度划分数据集在Spark平台上并行运算，得到基准尺度数据集的频繁项集；进而通过尺度转换机制挖掘目标数据集的关联规则，并得到算法的精确度。本发明专利技术将传统关联规则算法同尺度转换机制结合，只需对基准尺度数据集进行一次挖掘就能得到目标尺度数据集下相关知识，大大提升了在尺度数据集上运算的精确度和效率，同时在Spark平台上实现进一步提高了数据处理速度。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于Spark平台的多尺度关联规则方法
本专利技术涉及数据挖掘及数据处理
，尤其涉及一种基于Spark平台的多尺度关联规则方法。
技术介绍
大数据时代已经到来，数据已经渗透到世界各个领域的个体与组织中，记录其生命周期的全过程，是不可或缺的生产要素。面对信息爆炸带来的海量数据，无论是科研领域、商业领域还是政府机构都视数据挖掘技术为必不可少的分析工具，数据挖掘研究也获得了前所未有的关注和重视。数据挖掘旨在从大量的、形式不一、内容驳杂的数据中，发现研究对象本质上性质的相似性和行为的一致性，从而凝练出一定的规则和知识，用于决策。关联规则挖掘是数据挖掘领域中应用广泛且实用意义较高的研究方向，旨在发掘数据项之间频现且有趣的的关联性和相关性。由于关联规则挖掘具有广泛的商业应用，故对其的研究一直热度不减。目前对于关联规则挖掘的研究越来越具体，研究者往往针对不断涌现的新问题和特定的应用领域，对关联规则挖掘展开研究，力图在较实际的层面上解决问题。如今，简单的“啤酒，尿布”型规则挖掘早已不能满足决策者的信息需求，多层次、多角度的关联模式分析才是解决实际问题的关键。多尺度科学是新崛起的一门学科，由于其描述了研究对象本质的结构性与层次性，在数学、物理学、生物学、化学、地学等领域掀起了一场跨学科研究热潮。目前，结合多尺度科学进行跨学科研究是大势所趋，数据挖掘领域也顺应这一趋势，在理论和方法上将多尺度科学与数据挖掘技术相结合，分析挖掘结果的多层次、多尺度内涵，可将普通的挖掘结果提升为多尺度知识，这将有利于在实践中形成多尺度决策；另外，多尺度科学中分层次、分尺度处理和分析研究对...

【技术保护点】
1.一种基于Spark平台的多尺度关联规则方法，其特征在于，包括以下步骤：步骤1：在物理服务器上构建具有虚拟机的HDFS文件系统和Spark平台，并将数据集上传到HDFS文件系统中；步骤2：通过客户端向Spark平台提交作业，Spark平台从HDFS文件系统中读取数据并转换为弹性分布式数据集RDD，并将其存储在内存中；步骤3：选择多个基准尺度BS，确定每个基准尺度的数据集dsBS,由于每个RDD对应多个分区partition，所以在每个分区运行一个基准尺度数据集，各个分区并行运算；步骤4：各个partition中以最小支持度min_sup挖掘各个基准尺度数据集，得到各个基准尺度数据集频繁项集的集合FIi，并求取上述若干频繁项集集合的并集FIC作为目标尺度数据集dsSO频繁项集的候选项集集合；步骤5：通过克里格法确定基准尺度数据集对目标尺度数据集的权重矩阵λ，用于估算目标尺度数据集中频繁项集的支持度；步骤6：筛选各个分区目标尺度数据集最终的频繁项集，生成关联规则，并计算各个分区的算法精确度，进而求取精确度的均值作为最终结果。

【技术特征摘要】
1.一种基于Spark平台的多尺度关联规则方法，其特征在于，包括以下步骤：步骤1：在物理服务器上构建具有虚拟机的HDFS文件系统和Spark平台，并将数据集上传到HDFS文件系统中；步骤2：通过客户端向Spark平台提交作业，Spark平台从HDFS文件系统中读取数据并转换为弹性分布式数据集RDD，并将其存储在内存中；步骤3：选择多个基准尺度BS，确定每个基准尺度的数据集dsBS,由于每个RDD对应多个分区partition，所以在每个分区运行一个基准尺度数据集，各个分区并行运算；步骤4：各个partition中以最小支持度min_sup挖掘各个基准尺度数据集，得到各个基准尺度数据集频繁项集的集合FIi，并求取上述若干频繁项集集合的并集FIC作为目标尺度数据集dsSO频繁项集的候选项集集合；步骤5：通过克里格法确定基准尺度数据集对目标尺度数据集的权重矩阵λ，用于估算目标尺度数据集中频繁项集的支持度；步骤6：筛选各个分区目标尺度数据集最终的频繁项集，生成关联规则，并计算各个分区的算法精确度，进而求取精确度的均值作为最终结果。2.如权利要求1所述的基于Spark平台的多尺度关联规则方法，其特征在于步骤3中，根据用户选择的基准尺度数目来设定RDD中partition数目并启动一定数目的并发线程数读取数据。3.如权利要求1所述的基于Spark平台的多尺度关联规则方法，其特征在于步骤4中，对于多尺度关联规则算法，只对基准尺度数据集进行相关挖掘，求取基准尺度数据集...

【专利技术属性】
技术研发人员：王灵矫，赵博文，
申请(专利权)人：湘潭大学，
类型：发明
国别省市：湖南,43

全部详细技术资料下载我是这个专利的主人