【技术实现步骤摘要】
一种基于Mapreduce的数据汇聚方法及系统
本专利技术涉及数据处理
,特别涉及一种基于Mapreduce的数据汇聚方法及系统。
技术介绍
数据汇聚,或者称作ETL,将不同的业务系统的数据加载到数据仓库中。数据汇聚有多种方式,按照数据汇聚的传输方式,可以分为文件传输、数据抽取、内容爬去和消息推送等方式。其中,文件方式需要业务系统定时进行数据抽取,需要业务系统改造;数据抽取不需要业务系统改造,试用场景多;内容爬去,针对无法访问数据库,只能访问网页或者API的方式。在海量数据的背景下,针对转储数据不对等的、类型不匹配的大规模数据,本专利技术提出了一种基于Mapreduce的数据汇聚方法及系统。
技术实现思路
本专利技术为了弥补现有技术的缺陷,提供了一种简单高效的基于Mapreduce的数据汇聚方法及系统。本专利技术是通过如下技术方案实现的:一种基于Mapreduce的数据汇聚方法,其特征在于:以Hadoop为平台并结合MapReduce以及Spark的计算能力,针对转储数据不对等的、类型不匹配的大规模数据,完成不同数据库内表级别甚至是库级别的数据转换,为数据挖掘、数据分析算法提供平台及数据支持,并通过自主选择参数配置默认的数据汇聚方案,包括数据转换过滤规则、安全屏蔽原则、任务优先级分配规则、脏数据处理规则和节点调度规则,对数据转储实现个性化定制,处理需要人为判断的问题,并跟踪任务执行情况和数据质量,解决数据异常问题,高效安全地转储所需要的数据。一种基于M ...
【技术保护点】
1.一种基于Mapreduce的数据汇聚方法,其特征在于:以Hadoop为平台并结合MapReduce以及Spark的计算能力,针对转储数据不对等的、类型不匹配的大规模数据,完成不同数据库内表级别甚至是库级别的数据转换,为数据挖掘、数据分析算法提供平台及数据支持,并通过自主选择参数配置默认的数据汇聚方案,包括数据转换过滤规则、安全屏蔽原则、任务优先级分配规则、脏数据处理规则和节点调度规则,对数据转储实现个性化定制,处理需要人为判断的问题,并跟踪任务执行情况和数据质量,解决数据异常问题,高效安全地转储所需要的数据。/n
【技术特征摘要】
1.一种基于Mapreduce的数据汇聚方法,其特征在于:以Hadoop为平台并结合MapReduce以及Spark的计算能力,针对转储数据不对等的、类型不匹配的大规模数据,完成不同数据库内表级别甚至是库级别的数据转换,为数据挖掘、数据分析算法提供平台及数据支持,并通过自主选择参数配置默认的数据汇聚方案,包括数据转换过滤规则、安全屏蔽原则、任务优先级分配规则、脏数据处理规则和节点调度规则,对数据转储实现个性化定制,处理需要人为判断的问题,并跟踪任务执行情况和数据质量,解决数据异常问题,高效安全地转储所需要的数据。
2.一种基于Mapreduce的数据汇聚系统,其特征在于:包括数据源,数据汇聚规则配置模块,数据汇聚规则执行模块,数据汇聚监控模块,数据汇聚评估模块,集群管理模块和日志模块;
所述数据源是根据数据汇聚的需要,通过查询过滤条件配置的;
所述数据汇聚规则配置模块负责选择数据源中的表和/或列,并用个性化转换过滤方式进入数据汇聚过程中;
所述数据汇聚规则执行模块负责针对数据处理规则对输入数据进行治理;治理的结果要保持数据的类型、完整性、准确性和一致性;
所述数据汇聚监控模块负责针对任务流的情况进行监管,确保任务流的正确、快速执行以及任务流的执行顺序;
所述数据汇聚评估模块负责根据应用数据汇聚规则后的各种数据,包括任务的执行情况、处理数据量、错误数据量以及执行时间,给出数据汇聚评估报告;
所述集群管理模块负责针对集群中执行引擎进行安装、配置、监控和重启的管理治理,并对集群所执行的任务情况进行动态分配,以保证所有的集群内执行引擎以低负载的方式高效、安全的完成所有任务;
所述日志模块负责记录整个数据挖掘过程中产生的日志数据。
3.根据权利要求2所述的基于Mapreduce的数据汇聚系统,其特征在于:所述数据源可以是结构化数据库或者非结构化数据库;其中,结构化数据库通过sql进行查询,非结构化数据库则通过关键字的正则表达式进行查询,且要在UI页面上展示同种数据库类型中所有数据库。
4.根据权利要求2所述的基于Mapreduce的数据汇聚系统,其特征在于:所述数据汇聚规则配置模块用于选择用户个性化配置所需要变化的数据,通过预先设置的模板或算法,来达到用户需要实现的效果;
数据处理方式包括转换和过滤两种;其中,转换规则考虑文本与数字类型、列表类型和bool类型,提供用户各种类型互换的方式;过滤规则则是在数据库表中筛选出符合相应条件的数据去进行之后相应的操作。
5.根据权利要求2所述的基于Mapreduce的数据汇聚系统,其特征在于:所述数据汇聚规则执行模块用于实现数据在不同的数据处理规则中单向流转;
...
【专利技术属性】
技术研发人员:丁宇诚,单震,
申请(专利权)人:浪潮卓数大数据产业发展有限公司,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。