跨数据中心的数据查询分析方法及存储介质技术

技术编号:19593250 阅读:27 留言:0更新日期:2018-11-28 04:50
本发明专利技术公开了一种跨数据中心的数据查询分析方法及存储介质,方法包括:主数据中心生成汇聚指令,并按照预设的时间周期下发至各数据中心;各数据中心根据汇聚指令获取当前时间周期的汇聚数据,并将从同一个数据表中获取的汇聚数据存储到同一集合中,得到汇聚集合并上传至主数据中心;主数据中心判断是否存在对应的存储文件;若存在,则将汇聚数据更新至对应的存储文件;若不存在,则新建存储文件并将汇聚数据保存至存储文件;将新建的存储文件与汇聚集合对应的数据要素字段、资源编号和时间周期进行关联,得到关联关系;主数据中心进行数据查询分析。本发明专利技术可解决大量数据无法汇聚的问题,并达到快速查询分析的效果。

【技术实现步骤摘要】
跨数据中心的数据查询分析方法及存储介质
本专利技术涉及数据处理
,尤其涉及一种跨数据中心的数据查询分析方法及存储介质。
技术介绍
数据中心最早出现在20世纪60年代初,随着互联网的快速建设和信息技术的迅猛发展,到20世纪90年代中后期,数据中心进入了蓬勃发展期,建设规模和服务器数量每年都以惊人的速度增长,互联网技术的蓬勃发展掀起了建设数据中心的高潮,不但政府机构和金融电信等大型企业扩建自己的数据中心,中小企业也纷纷构建数据中心。目前的状况是一个企业可能按照区域划分建立了多个数据中心,这些数据中心的数据又是相互独立的,如何对这些数据中心里面的各种要素数据进行快速定位,以实现高速分析的效果。目前在这一方面的工作还是比较缺乏的。通常的一些做法都是建立标准查询服务接口,采用webservice或者restful的方式进行跨数据中心的查询请求。又或者是采用数据汇聚的方式,由各个分中心采用全量或者增量的方式将数据以标准结构的方式上传到主数据中心,通过统一存储的方式,避免这种跨数据中心的查询请求。如果是采用跨数据中心查询请求服务的方式,或者是采用数据汇聚的方式,当数据中心的结构越来越复杂,比如政府部门这种采用部省市三级架构的方式,往往一个部中心的查询请求,都要涉及到上百个省市的数据节点。特别是查询并发大,或者下面某个地市节点网络延迟比较大的时候,就无法达到快速查询分析的效果。当需要汇聚的数据量达到PB级别,受限于网络带宽,也无法对数据进行全量高速的汇聚。
技术实现思路
本专利技术所要解决的技术问题是:提供一种跨数据中心的数据查询分析方法及存储介质,可解决大量数据无法汇聚的问题,并达到快速查询分析的效果。为了解决上述技术问题,本专利技术采用的技术方案为:一种跨数据中心的数据查询分析方法,包括:主数据中心根据业务需求,生成汇聚指令,并按照预设的时间周期将所述汇聚指令下发至各数据中心,所述汇聚指令包括数据要素字段和当前时间周期对应的时间范围;各数据中心根据所述汇聚指令获取当前时间周期的汇聚数据,并将从同一个数据表中获取的汇聚数据存储到同一集合中,得到汇聚集合;将所述汇聚集合上传至主数据中心;主数据中心根据所述汇聚集合对应的数据要素字段、数据表的资源编号和时间周期,判断是否存在对应的存储文件;若存在,则将所述汇聚集合中的汇聚数据更新至对应的存储文件;若不存在,则新建存储文件,并将所述汇聚集合中的汇聚数据保存至所述存储文件;将所述新建的存储文件与所述汇聚集合对应的数据要素字段、数据表的资源编号和时间周期进行关联,得到关联关系;主数据中心根据业务需求和所述关联关系,进行数据查询分析。本专利技术还涉及一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如上所述的步骤。本专利技术的有益效果在于:通过根据关键的数据要素字段来进行数据汇聚,大大减少了汇聚的数据量,降低网络负载,提高数据汇聚的效率;通过根据数据要素字段、数据表和时间周期对汇聚数据进行分别存储,并建立对应的关联关系,实现全局统一索引,从而可将查询分析操作集中在主数据中心,避免跨数据中心的查询请求,达到快速存储分析的效果。附图说明图1为本专利技术一种跨数据中心的数据查询分析方法的流程图;图2为本专利技术实施例一的方法流程图。具体实施方式为详细说明本专利技术的
技术实现思路
、所实现目的及效果,以下结合实施方式并配合附图详予说明。本专利技术最关键的构思在于:建立全局数据资源目录;根据关键的数据要素字段来进行数据汇聚;利用bitmap的方式进行数据存储。请参阅图1,一种跨数据中心的数据查询分析方法,包括:主数据中心根据业务需求,生成汇聚指令,并按照预设的时间周期将所述汇聚指令下发至各数据中心,所述汇聚指令包括数据要素字段和当前时间周期对应的时间范围;各数据中心根据所述汇聚指令获取当前时间周期的汇聚数据,并将从同一个数据表中获取的汇聚数据存储到同一集合中,得到汇聚集合;将所述汇聚集合上传至主数据中心;主数据中心根据所述汇聚集合对应的数据要素字段、数据表的资源编号和时间周期,判断是否存在对应的存储文件;若存在,则将所述汇聚集合中的汇聚数据更新至对应的存储文件;若不存在,则新建存储文件,并将所述汇聚集合中的汇聚数据保存至所述存储文件;将所述新建的存储文件与所述汇聚集合对应的数据要素字段、数据表的资源编号和时间周期进行关联,得到关联关系;主数据中心根据业务需求和所述关联关系,进行数据查询分析。从上述描述可知,本专利技术的有益效果在于:可减少数据的汇聚量,并达到快速查询分析的效果。进一步地,所述主数据中心根据业务需求,生成汇聚指令,并按照预设的时间周期将所述汇聚指令下发至各数据中心之前,进一步包括:在两个以上的数据中心中选取一数据中心作为主数据中心;各数据中心将各自的数据资源目录上报至主数据中心,所述数据资源目录包括数据中心的标识、与数据中心中各数据表一一对应的资源编号以及各数据表中各数据字段的标识;主数据中心根据所述上报的数据资源目录,整合生成全局数据资源目录。由上述描述可知,通过在主数据中心建立全局数据资源目录,标识各个数据中心存储的数据表和数据字段,便于后续进行针对性的调度和分析。进一步地,所述主数据中心根据业务需求,生成汇聚指令,并按照预设的时间周期将所述汇聚指令下发至各数据中心具体为:主数据中心根据业务需求,生成汇聚指令,所述汇聚指令包括数据要素字段的标识和当前时间周期对应的时间范围;根据所述全局数据资源目录,确定包含所述数据要素字段的数据中心;按照预设的时间周期将所述汇聚指令下发至所述确定的数据中心。由上述描述可知,通过针对性的下发汇聚指令,减少无效指令的传输。进一步地,所述得到汇聚集合之后,进一步包括:根据所述数据要素字段、所述同一数据表的资源编号和所述当前时间周期,对所述汇聚集合进行命名。由上述描述可知,通过对汇聚集合进行命名,便于后续在主数据中心中可根据其名称确定其对应的存储文件。进一步地,所述将所述汇聚集合上传至主数据中心具体为:对所述汇聚集合中的汇聚数据进行排重;将排重后的汇聚集合压缩后上传至主数据中心。由上述描述可知,通过对汇聚数据进行排重并进行压缩,减少数据传输量,降低网络负载。进一步地,所述存储文件为位图文件,每个位图文件包括2的16次方个块;所述将所述汇聚集合中的汇聚数据保存至所述存储文件具体为:对所述汇聚集合中的各汇聚数据进行哈希计算,得到对应各汇聚数据的32位整数;将所述32位整数的后16位数字存储至前16位数字对应的块中。由上述描述可知,通过采用bitmap的方式进行存储,可大大地减少原有数据的存储空间,减少额外的存储服务器的投入,降低设备成本,并且可被加载到内存中,从而提高查询分析的速度。进一步地,所述新建存储文件,并将所述汇聚集合中的汇聚数据保存至所述存储文件之后,进一步包括:根据汇聚集合对应的数据要素字段、数据表的资源编号和时间周期,对所述新建的存储文件进行命名。由上述描述可知,根据数据要素字段、数据表的资源编号和时间周期对存储文件进行命名,保证存储文件名称的唯一性;通过对存储文件进行命名,可便于与汇聚集合进行匹配。进一步地,根据权利要求1所述的跨数据中心的数据查询分析方法,其特征在于,所述新建存储文件,并将所述汇聚集合中的汇聚数据保存至所述存储文件之后,进本文档来自技高网
...

【技术保护点】
1.一种跨数据中心的数据查询分析方法,其特征在于,包括:主数据中心根据业务需求,生成汇聚指令,并按照预设的时间周期将所述汇聚指令下发至各数据中心,所述汇聚指令包括数据要素字段和当前时间周期对应的时间范围;各数据中心根据所述汇聚指令获取当前时间周期的汇聚数据,并将从同一个数据表中获取的汇聚数据存储到同一集合中,得到汇聚集合;将所述汇聚集合上传至主数据中心;主数据中心根据所述汇聚集合对应的数据要素字段、数据表的资源编号和时间周期,判断是否存在对应的存储文件;若存在,则将所述汇聚集合中的汇聚数据更新至对应的存储文件;若不存在,则新建存储文件,并将所述汇聚集合中的汇聚数据保存至所述存储文件;将所述新建的存储文件与所述汇聚集合对应的数据要素字段、数据表的资源编号和时间周期进行关联,得到关联关系;主数据中心根据业务需求和所述关联关系,进行数据查询分析。

【技术特征摘要】
1.一种跨数据中心的数据查询分析方法,其特征在于,包括:主数据中心根据业务需求,生成汇聚指令,并按照预设的时间周期将所述汇聚指令下发至各数据中心,所述汇聚指令包括数据要素字段和当前时间周期对应的时间范围;各数据中心根据所述汇聚指令获取当前时间周期的汇聚数据,并将从同一个数据表中获取的汇聚数据存储到同一集合中,得到汇聚集合;将所述汇聚集合上传至主数据中心;主数据中心根据所述汇聚集合对应的数据要素字段、数据表的资源编号和时间周期,判断是否存在对应的存储文件;若存在,则将所述汇聚集合中的汇聚数据更新至对应的存储文件;若不存在,则新建存储文件,并将所述汇聚集合中的汇聚数据保存至所述存储文件;将所述新建的存储文件与所述汇聚集合对应的数据要素字段、数据表的资源编号和时间周期进行关联,得到关联关系;主数据中心根据业务需求和所述关联关系,进行数据查询分析。2.根据权利要求1所述的跨数据中心的数据查询分析方法,其特征在于,所述主数据中心根据业务需求,生成汇聚指令,并按照预设的时间周期将所述汇聚指令下发至各数据中心之前,进一步包括:在两个以上的数据中心中选取一数据中心作为主数据中心;各数据中心将各自的数据资源目录上报至主数据中心,所述数据资源目录包括数据中心的标识、与数据中心中各数据表一一对应的资源编号以及各数据表中各数据字段的标识;主数据中心根据所述上报的数据资源目录,整合生成全局数据资源目录。3.根据权利要求2所述的跨数据中心的数据查询分析方法,其特征在于,所述主数据中心根据业务需求,生成汇聚指令,并按照预设的时间周期将所述汇聚指令下发至各数据中心具体为:主数据中心根据业务需求,生成汇聚指令,所述汇聚...

【专利技术属性】
技术研发人员:吴文吴鸿伟周成祖鄢小征
申请(专利权)人:厦门市美亚柏科信息股份有限公司
类型:发明
国别省市:福建,35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1