一种支持分布式计算的关联规则挖掘算法实现方法及装置制造方法及图纸

技术编号：8366777 阅读：207 留言：0更新日期：2013-02-28 05:20

本发明专利技术公开了一种支持分布式计算的关联规则挖掘算法实现方法及装置，用HDFS的编程模型对关联规则挖掘算法PA进行map函数阶段和reduce函数阶段的两阶段分解：步骤一：配置作业调度器；步骤二：用先验概率映射模块读取数据集，并通过map函数将数据集的数据行转换为键值对；步骤三：用先验概率约简模块读取步骤二处理的键值对，并通过reduce函数随机生成包含i项集的排序规则TopN，同时计算置信度的先验概率分布值；步骤四：再用规则映射模块读取同一个数据集，并再次通过map函数将数据集的数据行转换为键值对；步骤五：再用规则约简模块读取步骤四处理的键值对和步骤三的先验概率分布值，并通过reduce函数计算出排序规则TopN的预测精度值。主要用于PA分布式计算技术中。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机
，尤其涉及一种支持分布式计算的关联规则挖掘算法实现方法及装置。
技术介绍
随着“大数据”时代的到来，企业业务数据量激增，数据分析师都在尝试各种数据分析方法以及数据挖掘方法，旨在希望能够从海量数据中发掘潜在的、具有业务价值的用户行为模式。数据挖掘通过分析每个数据，从大量数据中寻找其规律的技术。另外，本专利技术中提到的大数据、海量数据、数据集的含义相同。关联规则挖掘是数据挖掘方法中一种被广泛采用的且具有影响力的方法，它能够用在各种推荐系统中为用户推荐感兴趣的物品。目前能够使用的各种版本的关联规则挖掘算法都是单机形式，面对大数据量情况都显得无能为力，很多场景下也只是采样部分业务数据进行关联规则的查找。1993年，R. Agrawal等人首次提出了挖掘顾客交易数据中项目集间的关联规则问题，其核心是基于两阶段频繁集思想的递推算法。第一步通过迭代，检索出事务数据库中的所有频繁项集，频繁项集即支持度不低于用户设定的阈值的项集；第二步利用频繁项集构造出满足用户最小信任度的规则。其中，挖掘或识别出所有频繁项集是该算法的核心，占整个计算量的大部分。频繁项...

【技术保护点】
一种支持分布式计算的关联规则挖掘算法实现方法，其特征在于，用分布式文件系统HDFS的编程模型MapReduce对关联规则挖掘算法PA进行map函数阶段和reduce函数阶段的两阶段分解，其分解步骤为：步骤一：配置作业调度器Recomjob；步骤二：用先验概率映射模块PriorMap读取数据集，并通过map函数将数据集的数据行转换为键值对；步骤三：用先验概率约简模块PriorReduce读取步骤二处理的键值对，并通过reduce函数随机生成包含i项集的排序规则TopN，同时计算置信度的先验概率分布值；步骤四：再用规则映射模块ParMap读取同一个数据集，并再次通过map函数将数据集的数据行转换为...

【技术特征摘要】

【专利技术属性】
技术研发人员：杨进，张金伟，
申请(专利权)人：杭州斯凯网络科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人