一种高效数据分析处理方法技术

技术编号：11868083 阅读：93 留言：0更新日期：2015-08-12 17:06

本发明专利技术提供了一种高效数据分析处理方法，该方法包括：当数据集发生更新时，若数据量大于预定义阈值，则云计算平台采用MapReduce模型，将关联规则的更新在多个分布式节点中并行化处理，即执行基于云计算的关联规则更新，否则在单节点中执行关联规则的更新。本发明专利技术的方法在基于云计算的数据分析处理中，能够提高数据分析处理的执行效率，特别是在大数据集的情况下效果尤为明显。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及大数据处理，特别涉及。
技术介绍
云计算借助互联网平台，提供廉价的分布式动态可扩展的计算能力。云计算可以使实现物物相连、网网相通的理想效果。多种信息传感设备在中相互通信，产生的数据是海量的。因此如何生成的海量大数据中快速有效地提取出有用的信息是至关重要的。传统的数据处理方法存在的缺点就是在执行过程中要多次扫描整个数据库，产生庞大的候选集，造成时间和空间的浪费。
技术实现思路
为解决上述现有技术所存在的问题，本专利技术提出了，包括：当数据集发生更新时，若数据量大于预定义阈值，则云计算平台采用MapReduce 模型，将关联规则的更新在多个分布式节点中并行化处理，即执行基于云计算的关联规则更新，否则在单节点中执行关联规则的更新。优选地，其中在基于Hadoop的平台中执行MapReduce操作包括如下步骤： MapReduce库将输入的大数据文件分成若干独立的数据，并在不同的机器上进行程序数据的备份；主程序节点分配子事务，并将子事务递交给空闲的工作机节点中；被分配的子事务的工作节点读取输入的的文件，从中解析出key/value键值对，并调用用户编写的Map函数处理键值对，并生成中间键值对；分区函数将这些中间数据分成若干区，将各个区在磁盘中位置信息发送给主程序，然后转发给Reduce子事务节点；Reduce子事务节点获取由主程序转发的子事务后，根据位置信息调用磁盘上中间数据，并对这些中间按key 值进行排序，相同key值进行合并操作；Reduce子事务节点遍历排序后的中间数据，并将数据传递给用户定义的Red...

【技术保护点】
一种高效数据分析处理方法，用于通过基于Hadoop的云计算平台进行数据分析，其特征在于，包括：当数据集发生更新时，若数据量大于预定义阈值，则云计算平台采用MapReduce模型，将关联规则的更新在多个分布式节点中并行化处理，即执行基于云计算的关联规则更新，否则在单节点中执行关联规则的更新。

【技术特征摘要】

【专利技术属性】
技术研发人员：高爽，
申请(专利权)人：成都博元科技有限公司，
类型：发明
国别省市：四川;51

全部详细技术资料下载我是这个专利的主人