一种基于Mapreduce的数据汇聚方法及系统技术方案

技术编号:26170990 阅读:16 留言:0更新日期:2020-10-31 13:41
本发明专利技术特别涉及一种基于Mapreduce的数据汇聚方法及系统。该基于Mapreduce的数据汇聚方法及系统,以Hadoop为平台并结合MapReduce以及Spark的计算能力,完成不同数据库内表级别甚至是库级别的数据转换,并通过自主选择参数配置默认的数据汇聚方案,包括数据转换过滤规则、安全屏蔽原则、任务优先级分配规则、脏数据处理规则和节点调度规则,对数据转储实现个性化定制,处理需要人为判断的问题,并跟踪任务执行情况和数据质量,解决数据异常问题,高效安全地转储所需要的数据。该基于Mapreduce的数据汇聚方法及系统,能够高效安全地转储所需要的数据,完成不同数据库内表级别甚至是库级别的数据转换,为数据挖掘、数据分析算法提供了平台及数据支持。

【技术实现步骤摘要】
一种基于Mapreduce的数据汇聚方法及系统
本专利技术涉及数据处理
,特别涉及一种基于Mapreduce的数据汇聚方法及系统。
技术介绍
数据汇聚,或者称作ETL,将不同的业务系统的数据加载到数据仓库中。数据汇聚有多种方式,按照数据汇聚的传输方式,可以分为文件传输、数据抽取、内容爬去和消息推送等方式。其中,文件方式需要业务系统定时进行数据抽取,需要业务系统改造;数据抽取不需要业务系统改造,试用场景多;内容爬去,针对无法访问数据库,只能访问网页或者API的方式。在海量数据的背景下,针对转储数据不对等的、类型不匹配的大规模数据,本专利技术提出了一种基于Mapreduce的数据汇聚方法及系统。
技术实现思路
本专利技术为了弥补现有技术的缺陷,提供了一种简单高效的基于Mapreduce的数据汇聚方法及系统。本专利技术是通过如下技术方案实现的:一种基于Mapreduce的数据汇聚方法,其特征在于:以Hadoop为平台并结合MapReduce以及Spark的计算能力,针对转储数据不对等的、类型不匹配的大规模数据,完成不同数据库内表级别甚至是库级别的数据转换,为数据挖掘、数据分析算法提供平台及数据支持,并通过自主选择参数配置默认的数据汇聚方案,包括数据转换过滤规则、安全屏蔽原则、任务优先级分配规则、脏数据处理规则和节点调度规则,对数据转储实现个性化定制,处理需要人为判断的问题,并跟踪任务执行情况和数据质量,解决数据异常问题,高效安全地转储所需要的数据。一种基于Mapreduce的数据汇聚系统,其特征在于:包括数据源,数据汇聚规则配置模块,数据汇聚规则执行模块,数据汇聚监控模块,数据汇聚评估模块,集群管理模块和日志模块;所述数据源是根据数据汇聚的需要,通过查询过滤条件配置的;所述数据汇聚规则配置模块负责选择数据源中的表和/或列,并用个性化转换过滤方式进入数据汇聚过程中;所述数据汇聚规则执行模块负责针对数据处理规则对输入数据进行治理;治理的结果要保持数据的类型、完整性、准确性和一致性;所述数据汇聚监控模块负责针对任务流的情况进行监管,确保任务流的正确、快速执行以及任务流的执行顺序;所述数据汇聚评估模块负责根据应用数据汇聚规则后的各种数据,包括任务的执行情况、处理数据量、错误数据量以及执行时间,给出数据汇聚评估报告;所述集群管理模块负责针对集群中执行引擎进行安装、配置、监控和重启的管理治理,并对集群所执行的任务情况进行动态分配,以保证所有的集群内执行引擎以低负载的方式高效、安全的完成所有任务;所述日志模块负责记录整个数据挖掘过程中产生的日志数据。所述数据源可以是结构化数据库(Oracle、Mysql、db2等)或者非结构化数据库(Hdfs、Hive、HBase等);其中,结构化数据库通过sql进行查询,非结构化数据库则通过关键字的正则表达式进行查询,且要在UI页面上展示同种数据库类型中所有数据库。所述数据汇聚规则配置模块用于选择用户个性化配置所需要变化的数据,通过预先设置的模板或算法,来达到用户需要实现的效果;数据处理方式包括转换和过滤两种;其中,转换规则考虑文本与数字类型、列表类型和bool类型,提供用户各种类型互换的方式;过滤规则则是在数据库表中筛选出符合相应条件的数据去进行之后相应的操作。所述数据汇聚规则执行模块用于实现数据在不同的数据处理规则中单向流转;当同一列数据需要多个数据处理规则时,按照规则定义的优先级先后顺序执行,并最终交付数据生成数据汇聚评估报告;当同一个数据处理规则需要多个数据源时,先对每个数据源应用子数据汇聚规则,然后应用合并的总数据汇聚规则,并最终交付数据生成数据汇聚评估报告。所述数据汇聚规则执行模块通过MapReduce或者Spark执行,执行引擎为分布式组件,分为Schedule和Execute两部分;其中,Scheduler为任务管理调度节点,负责任务的拆分、调度、容错和进度,将一个大任务切分成多个任务引擎可直接运行的Task任务,资源空闲的Executor主动领取任务并执行;Execute管理节点的任务是分配信息并监控其运行状态。所述数据汇聚监控模块由任务管理器管理,任务管理器收到数据源管理的信息后开始配置任务,初始化各种任务参数,并接受和反馈任务执行进度和情况。所述数据汇聚评估模块从模块管理器获得各种任务处理结果和各个具体的失败数据的集合,所述任务处理结果包括任务执行时间、速度和总数据处理量。所述集群管理模块负责搭建、激活执行引擎,在执行引擎出问题时发出警告,并拥有修复、重启任务引擎的功能。所述日志模块负责日志文件的生成和查询;当任务启动时,调用open接口在客户端完成日志的创建和初始化,通过info,warn,error三种不同级别的接口写入日志内容到服务器中;当任务执行完毕时,调用close接口通知客户端当前任务的日志写入结束,并完成清理工作;日志查询的逻辑为:首先从备份服务器查找日志,若查找成功,则返回日志文件内容,若查找失败则返回失败信息。本专利技术基于Mapreduce的数据汇聚系统,还包括数据交付模块和权限管理模块,所述数据交付模块负责根据客户需求将数据汇聚评估模块得出的结果以图表和/或文档形式个性化地展现出来,并向客户反馈当前任务的各种情况;所述权限管理模块负责控制系统用户访问数据库权限、读写数据库权限、修改任务权限和查看任务日志权限。当发现异常数据或者错误数据时,用户选择一下任意一种方案进行交付:(1)替换原始数据(后期可与权限管理结合);(2)保存为新的数据;(3)挖掘计算后丢弃(特征易发生改变的时效性数据)。本专利技术的有益效果是:该基于Mapreduce的数据汇聚方法及系统,能够高效安全地转储所需要的数据,完成不同数据库内表级别甚至是库级别的数据转换,为数据挖掘、数据分析算法提供了平台及数据支持。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。附图1为本专利技术基于Mapreduce的数据汇聚系统示意图。附图2为本专利技术多个数据处理规则处理同一列数据的流程示意图。附图3为本专利技术同一个数据处理规则处理多个数据源数据的流程示意图。具体实施方式为了使本
的人员更好的理解本专利技术中的技术方案,下面将结合本专利技术实施例,对本专利技术实施例中的技术方案进行清楚,完整的描述。显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本专利技术保护的范围。该基于Map本文档来自技高网
...

【技术保护点】
1.一种基于Mapreduce的数据汇聚方法,其特征在于:以Hadoop为平台并结合MapReduce以及Spark的计算能力,针对转储数据不对等的、类型不匹配的大规模数据,完成不同数据库内表级别甚至是库级别的数据转换,为数据挖掘、数据分析算法提供平台及数据支持,并通过自主选择参数配置默认的数据汇聚方案,包括数据转换过滤规则、安全屏蔽原则、任务优先级分配规则、脏数据处理规则和节点调度规则,对数据转储实现个性化定制,处理需要人为判断的问题,并跟踪任务执行情况和数据质量,解决数据异常问题,高效安全地转储所需要的数据。/n

【技术特征摘要】
1.一种基于Mapreduce的数据汇聚方法,其特征在于:以Hadoop为平台并结合MapReduce以及Spark的计算能力,针对转储数据不对等的、类型不匹配的大规模数据,完成不同数据库内表级别甚至是库级别的数据转换,为数据挖掘、数据分析算法提供平台及数据支持,并通过自主选择参数配置默认的数据汇聚方案,包括数据转换过滤规则、安全屏蔽原则、任务优先级分配规则、脏数据处理规则和节点调度规则,对数据转储实现个性化定制,处理需要人为判断的问题,并跟踪任务执行情况和数据质量,解决数据异常问题,高效安全地转储所需要的数据。


2.一种基于Mapreduce的数据汇聚系统,其特征在于:包括数据源,数据汇聚规则配置模块,数据汇聚规则执行模块,数据汇聚监控模块,数据汇聚评估模块,集群管理模块和日志模块;
所述数据源是根据数据汇聚的需要,通过查询过滤条件配置的;
所述数据汇聚规则配置模块负责选择数据源中的表和/或列,并用个性化转换过滤方式进入数据汇聚过程中;
所述数据汇聚规则执行模块负责针对数据处理规则对输入数据进行治理;治理的结果要保持数据的类型、完整性、准确性和一致性;
所述数据汇聚监控模块负责针对任务流的情况进行监管,确保任务流的正确、快速执行以及任务流的执行顺序;
所述数据汇聚评估模块负责根据应用数据汇聚规则后的各种数据,包括任务的执行情况、处理数据量、错误数据量以及执行时间,给出数据汇聚评估报告;
所述集群管理模块负责针对集群中执行引擎进行安装、配置、监控和重启的管理治理,并对集群所执行的任务情况进行动态分配,以保证所有的集群内执行引擎以低负载的方式高效、安全的完成所有任务;
所述日志模块负责记录整个数据挖掘过程中产生的日志数据。


3.根据权利要求2所述的基于Mapreduce的数据汇聚系统,其特征在于:所述数据源可以是结构化数据库或者非结构化数据库;其中,结构化数据库通过sql进行查询,非结构化数据库则通过关键字的正则表达式进行查询,且要在UI页面上展示同种数据库类型中所有数据库。


4.根据权利要求2所述的基于Mapreduce的数据汇聚系统,其特征在于:所述数据汇聚规则配置模块用于选择用户个性化配置所需要变化的数据,通过预先设置的模板或算法,来达到用户需要实现的效果;
数据处理方式包括转换和过滤两种;其中,转换规则考虑文本与数字类型、列表类型和bool类型,提供用户各种类型互换的方式;过滤规则则是在数据库表中筛选出符合相应条件的数据去进行之后相应的操作。


5.根据权利要求2所述的基于Mapreduce的数据汇聚系统,其特征在于:所述数据汇聚规则执行模块用于实现数据在不同的数据处理规则中单向流转;
...

【专利技术属性】
技术研发人员:丁宇诚单震
申请(专利权)人:浪潮卓数大数据产业发展有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1