数据统计分析方法及装置制造方法及图纸

技术编号:10937827 阅读:123 留言:0更新日期:2015-01-21 18:31
本发明专利技术公开了一种数据统计分析方法及装置,所述方法包括:解析所接收的任务参数,按照预设规则组装数据库的建表语句,并根据所述建表语句在所述数据库中执行建表操作;根据所述任务参数生成所述任务参数对应的任务,并根据所述任务参数调度分布式框架执行所生成的任务,将执行所生成的任务后确定的统计分析的结果存储至在所述数据库所建立的对应的表中。通过本发明专利技术的技术方案,解决了相关技术中无法获知任务的操作记录和执行任务后的统计分析结果的问题。

【技术实现步骤摘要】
数据统计分析方法及装置
本专利技术涉及数据库技术,尤其涉及一种数据统计分析方法及装置。
技术介绍
Hive是基于Apache分布式框架Hadoop的数据仓库工具,用于存储和处理海量结构化数据,Hive将数据存储于Hadoop分布式文件系统(HDFS, Hadoop Distributed FileSystem),采用类似数据库的数据存储和处理机制,并采用HQL (Hive Query Language)对这些数据进行自动化管理和处理。 分布式的、面向列的数据库HBase可以使用本地文件系统或HDFS存储数据,但为了提高数据可靠性和系统的健壮性,发挥HBase处理大数据量的优势时需要使用HDFS作为存储数据的文件系统。 Hive将海量结构化数据映射到一张数据库表中,而实际上这些数据分布式地存储在HDFS中,Hive对数据分析人员下达的命令语句进行解析和转换,最终生成一系列基于Hadoop的映射/规约(Map/Reduce)模型的任务(Job),由Hadoop执行这些任务完成对数据的统计分析。 目前,数据分析人员直接操作Hive时需要有较高的专业操作技能,不利于该技术的推广,并且,Hive的一些功能例如用户定义函数(UDF, User Defined Funct1n)需要频繁加载,操作繁琐且效率低下;对于频繁执行或者定期执行的对HBase的数据文件进行统计分析的任务,通常编写脚本通过任务管理工具Cron来调度执行,实际应用中任务数量较多,且管理人员无从得知脚本具体的功能,因此无法得知相应任务的操作记录,任务失败时也就无法进行恢复操作。 综上所述,由于相关技术中无法获知脚本的具体功能,因此无法获知任务的操作记录以及任务的统计分析结果。
技术实现思路
有鉴于此,本专利技术的主要目的在于提供一种数据统计分析方法及装置,以解决相关技术中无法获知任务的操作记录以及任务的统计分析结果的问题。 为达到上述目的,本专利技术的技术方案是这样实现的: 本专利技术提供了一种数据统计分析方法,该方法支持数据仓库工具对基于分布式框架的数据库中的数据进行统计分析,所述数据库中的数据与对所述数据库中的数据进行统计分析的任务预关联,该方法包括: 解析所接收的任务参数,按照预设规则组装所述数据库的建表语句,并根据所述建表语句在所述数据库中执行建表操作; 根据所述任务参数生成所述任务参数对应的任务,并根据所述任务参数调度所述分布式框架执行所生成的任务,将执行所生成的任务后确定的统计分析的结果存储至在所述数据库所建立的对应的表中。 优选地,解析所接收的任务参数之前,该方法还包括: 将所接收的任务参数存储至缓冲存储器; 持久化所接收的任务参数至所述数据库; 在所述缓冲存储器存储的任务参数丢失时,将所述数据库中的任务参数发送至所述缓冲存储器。 优选地,所述任务参数包括:任务身份标识(ID, IDentity)、任务对应的命令语句; 相应地,所述解析所接收的任务参数之前,该方法还包括: 确定所述存储缓冲器中未存储所述任务ID,且所述命令语句有效。 优选地,所述解析所接收的任务参数,按照预设规则组装所述数据库的建表语句,并根据所述建表语句在所述数据库中执行建表操作,包括: 解析所述任务参数中的命令语句,从所述命令语句的解析结果中提取查询字段,在所述数据库中建立与所述任务ID对应的表,在所述对应的表中建立与所述查询字段对应的字段。 优选地,所述任务参数还包括:任务状态标识、任务执行日期、任务执行时间和任务关联的编程模型; 相应地,所述根据所述任务参数生成所述任务参数对应的任务,并根据所述任务参数调度所述分布式框架执行所生成的任务,将执行所生成的任务后确定的统计分析的结果存储至在所述数据库所建立的对应的表中,包括: 根据所述命令语句和所述任务关联的编程模型生成任务,在确定所生成的任务对应的状态标识为开启时,在所述任务执行日期的所述任务执行时间指定的时间到来时,调度所述分布式框架而执行所生成的任务,并将执行所述任务的记录和执行所述任务后确定的统计分析的结果,存储至所述数据库中所述查询字段对应的字段。 本专利技术还提供了一种数据统计分析装置,该装置支持数据仓库工具对基于分布式框架的数据库中的数据进行统计分析,所述数据库中的数据与对所述数据库中的数据进行统计分析的任务预关联,该装置包括:接收模块、解析建表模块、任务生成模块和调度执行模块;其中, 所述接收模块,用于接收任务参数; 所述解析建表模块,用于解析所接收的任务参数,按照预设规则组装所述数据库的建表语句,并根据所述建表语句在所述数据库中执行建表操作; 所述任务生成模块,用于根据所述任务参数生成所述任务参数对应的任务; 所述调度执行模块,用于根据所述任务参数调度所述分布式框架执行所生成的任务,将执行所生成的任务后确定的统计分析的结果,存储至在所述数据库所建立的对应的表中。 优选地,该装置还包括缓冲存储器和发送模块;其中, 所述接收模块,还用于将接收的任务参数存储至所述缓冲存储器;持久化所接收的任务参数至所述数据库; 所述发送模块,用于在所述缓冲存储器存储的任务参数丢失时,将所述数据库中的任务参数发送至所述缓冲存储器。 优选地,所述任务参数包括:任务ID、任务对应的命令语句; 该装置还包括:确定模块,用于确定所述存储缓冲器中未存储所述任务ID,且所述命令语句有效时,触发所述解析建表模块。 优选地,所述解析建表模块,还用于解析所述任务参数中的命令语句,从所述命令语句的解析结果中提取查询字段,在所述数据库中建立与所述任务ID对应的表,在所述对应的表中建立与所述查询字段对应的字段。 优选地,所述任务参数还包括:任务状态标识、任务执行日期、任务执行时间和任务关联的编程模型; 所述任务生成模块,还用于根据所述命令语句和所述任务关联的编程模型生成任务; 所述确定模块,还用于确定所生成的任务对应的状态标识为开启时,在所述任务执行日期的所述任务执行时间指定的时间到来时触发所述调度执行模块; 所述调度执行模块,还用于调度所述分布式框架执行所生成的任务,将执行所生成的任务后确定的统计分析的结果,存储至在所述数据库所建立的对应的表中。 本专利技术所提供的技术方案中,根据任务参数在数据库中建立与任务对应的表,并根据所述任务参数调度分布式框架执行根据任务参数生成的任务,而任务执行后统计分析的结果存储在所建立的表中,解决了无法获知任务操作记录及任务统计分析结果的问题; 进一步地,在所述缓冲存储器存储的任务参数丢失时,将所述数据库中的任务参数发送至所述缓冲存储器,保证了任务执行的健壮性和稳定性; 进一步地,确定所述存储缓冲器中未存储所述任务ID,且所述命令语句有效,如此,在任务ID重复或任务对应的命令语句无效时,方便了数据分析人员及时排查错误,提高了数据统计分析效率; 进一步地,从所述命令语句的解析结果中提取查询字段,在所述数据库中建立与所述任务ID对应的表,在所述对应的表中建立与所述查询字段对应的字段,方便了数据分析人员查询执行失败的任务,以及时恢复任务; 进一步地,通过任务对应的状态标识、任务执行日期和任务执行时间来调度分布式框架执行本文档来自技高网
...
数据统计分析方法及装置

【技术保护点】
一种数据统计分析方法,其特征在于,该方法支持数据仓库工具对基于分布式框架的数据库中的数据进行统计分析,所述数据库中的数据与对所述数据库中的数据进行统计分析的任务预关联,该方法包括:解析所接收的任务参数,按照预设规则组装所述数据库的建表语句,并根据所述建表语句在所述数据库中执行建表操作;根据所述任务参数生成所述任务参数对应的任务,并根据所述任务参数调度所述分布式框架执行所生成的任务,将执行所生成的任务后确定的统计分析的结果存储至在所述数据库所建立的对应的表中。

【技术特征摘要】
1.一种数据统计分析方法,其特征在于,该方法支持数据仓库工具对基于分布式框架的数据库中的数据进行统计分析,所述数据库中的数据与对所述数据库中的数据进行统计分析的任务预关联,该方法包括: 解析所接收的任务参数,按照预设规则组装所述数据库的建表语句,并根据所述建表语句在所述数据库中执行建表操作; 根据所述任务参数生成所述任务参数对应的任务,并根据所述任务参数调度所述分布式框架执行所生成的任务,将执行所生成的任务后确定的统计分析的结果存储至在所述数据库所建立的对应的表中。2.根据权利要求1所述的方法,其特征在于,解析所接收的任务参数之前,该方法还包括: 将所接收的任务参数存储至缓冲存储器; 持久化所接收的任务参数至所述数据库; 在所述缓冲存储器存储的任务参数丢失时,将所述数据库中的任务参数发送至所述缓冲存储器。3.根据权利要2所述的方法,其特征在于,所述任务参数包括:任务身份标识ID、任务对应的命令语句; 相应地,所述解析所接收的任务参数之前,该方法还包括: 确定所述存储缓冲器中未存储所述任务ID,且所述命令语句有效。4.根据权利要3所述的方法,其特征在于,所述解析所接收的任务参数,按照预设规则组装所述数据库的建表语句,并根据所述建表语句在所述数据库中执行建表操作,包括: 解析所述任务参数中的命令语句,从所述命令语句的解析结果中提取查询字段,在所述数据库中建立与所述任务ID对应的表,在所述对应的表中建立与所述查询字段对应的字段。5.根据权利要求4所述的方法,其特征在于,所述任务参数还包括:任务状态标识、任务执行日期、任务执行时间和任务关联的编程模型; 相应地,所述根据所述任务参数生成所述任务参数对应的任务,并根据所述任务参数调度所述分布式框架执行所生成的任务,将执行所生成的任务后确定的统计分析的结果存储至在所述数据库所建立的对应的表中,包括: 根据所述命令语句和所述任务关联的编程模型生成任务,在确定所生成的任务对应的状态标识为开启时,在所述任务执行日期的所述任务执行时间指定的时间到来时,调度所述分布式框架而执行所生成的任务,并将执行所述任务的记录和执行所述任务后确定的统计分析的结果,存储至所述数据库中所述查询...

【专利技术属性】
技术研发人员:梅迎春
申请(专利权)人:深圳中兴网信科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1