一种基于Hadoop的数据分析方法技术

技术编号：11868098 阅读：115 留言：0更新日期：2015-08-12 17:07

本发明专利技术提供了一种基于Hadoop的数据分析方法，用于通过基于云计算的数据分析处理系统进行数据分析，所述数据分析处理系统基于Hadoop平台作为计算环境，该数据分析处理系统由数据存储模块、数据分析模块和事务处理模块构成，使用Hadoop中的MapReduce插件作为开发工具，所述MapReduce对数据的操作包括Map操作和Reduce操作，所述Map操作是对输入的键值对进行指定的操作，生成一组中间键值对，所述Reduce操作对Map操作输出的中间键值对进行规约合并。本发明专利技术的方法在基于云计算的数据分析处理中，能够提高数据分析处理的执行效率，特别是在大数据集的情况下效果尤为明显。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及大数据处理，特别涉及。
技术介绍
云计算借助互联网平台，提供廉价的分布式动态可扩展的计算能力。云计算可以使实现物物相连、网网相通的理想效果。多种信息传感设备在中相互通信，产生的数据是海量的。因此如何生成的海量大数据中快速有效地提取出有用的信息是至关重要的。传统的数据处理方法存在的缺点就是在执行过程中要多次扫描整个数据库，产生庞大的候选集，造成时间和空间的浪费。
技术实现思路
为解决上述现有技术所存在的问题，本专利技术提出了一种基于Hadoop的数据分析方法，用于通过基于云计算的数据分析处理系统进行数据分析，包括：所述数据分析处理系统基于Hadoop平台作为计算环境，该数据分析处理系统由数据存储模块、数据分析模块和事务处理模块构成，使用Hadoop中的MapReduce插件作为开发工具，所述MapReduce对数据的操作包括Map操作和Reduce操作，所述Map操作是对输入的键值对进行指定的操作，生成一组中间键值对，所述Reduce操作对Map操作输出的中间键值对进行规约合并。优选地，所述待分析的数据由所述数据存储模块存储并转换为数据库文件，保存到Hadoop平台的HDFS中；所述数据分析模块利用云计算平台的分布式并行计算的属性将关联规则生成过程交由MapReduce处理，运用于云计算平台，由主程序负责事务的创建、管理控制，按照用户的请求将数据分析事务传输到相应的节点进行计算；所述事务处理模块由主程序负责所有数据分析处理事务的调度，并将最终结果返回给用户，其中所述 MapReduce编程模型只提供...
一种<a href="http://www.xjishu.com/zhuanli/55/CN104834557.html" title="一种基于Hadoop的数据分析方法原文来自X技术">基于Hadoop的数据分析方法</a>

【技术保护点】
一种基于Hadoop的数据分析方法，用于通过基于云计算的数据分析处理系统进行数据分析，其特征在于，包括：所述数据分析处理系统基于Hadoop平台作为计算环境，该数据分析处理系统由数据存储模块、数据分析模块和事务处理模块构成，使用Hadoop中的MapReduce插件作为开发工具，所述MapReduce对数据的操作包括Map操作和Reduce操作，所述Map操作是对输入的键值对进行指定的操作，生成一组中间键值对，所述Reduce操作对Map操作输出的中间键值对进行规约合并。

【技术特征摘要】

【专利技术属性】
技术研发人员：高爽，
申请(专利权)人：成都博元科技有限公司，
类型：发明
国别省市：四川;51

全部详细技术资料下载我是这个专利的主人