一种基于MPP引擎的跨数据中心快速查询方法和系统技术方案

技术编号:16038212 阅读:315 留言:0更新日期:2017-08-19 20:03
本发明专利技术涉及一种基于MPP引擎的跨数据中心快速查询方法和系统,属于大数据检索分析领域,可应用于实时系统或离线备份系统。该方法将不同MPP引擎中的数据进行统一标记并存储到元数据中;全局中心节点接收查询请求并对其进行语法解析,然后分发送到对应的数据分中心节点;各数据分中心节点通过元数据的相应MPP引擎进行查询,并将数据传输给全局中心节点;全局中心节点利用MPP引擎对数据分中心节点返回的数据进行快速查询,并输出查询结果。本发明专利技术能够实现不同数据中心数据的联合查询,兼容多种MPP引擎,充分利用不同存储模式的特点优化查询,支持多种方式导出查询结果,便于实现上层不同应用对结果数据再分析的不同要求。

【技术实现步骤摘要】
一种基于MPP引擎的跨数据中心快速查询方法和系统
本专利技术涉及一种基于MPP(MassivelyParallelProcessor,大规模并行处理)引擎的跨数据中心快速查询技术,特别是涉及元数据统一标识,实现数据可靠快速传输,优化查询分析引擎和支持多种结果导出方式的关键技术,属于大数据检索领域。
技术介绍
随着网络和信息技术的不断普及,人类产生的数据量正在呈指数级增长。大约每两年翻一番,根据监测,这个速度在2020年之前会继续保持下去。这意味着人类在最近两年产生的数据量相当于之前产生的全部数据量。可预计,到2020年全球数据将达到40ZB。大量新数据源的出现则导致了非结构化、半结构化数据爆发式的增长。信息数据的单位已达到TB-PB-EB-ZB的级别。这些由我们创造的信息背后产生的这些数据早已经远远超越了目前人力所能处理的范畴。如何管理和使用这些数据,逐渐成为一个新的挑战。在数据增长的同时,越来越多的企业依赖于海量数据分析结果来进行关键业务决策。大规模数据下的交互式/离线数据分析,是实施数据分析和数据探索的主要途径,具有广泛的商业前景。在大数据存储方面,出现了多种以分布式存储系统和N本文档来自技高网...
一种基于MPP引擎的跨数据中心快速查询方法和系统

【技术保护点】
一种基于MPP引擎的跨数据中心快速查询方法,其步骤包括:1)将不同MPP引擎中的数据进行统一标记并存储到元数据中,保证元数据在全局中心节点和各数据分中心节点的一致性;2)全局中心节点接收查询请求并对其进行语法解析,解析成功后生成每个数据分中心节点的查询请求并将其发送到对应的数据分中心节点;3)各数据分中心节点接收查询请求并对其进行语法解析,通过元数据的相应MPP引擎进行查询,查询成功后将数据传输给全局中心节点;4)全局中心节点接收到所有数据分中心节点回传的数据后,将数据存储到底层存储引擎;5)全局中心节点利用MPP引擎对数据分中心节点返回的数据进行快速查询,并输出查询结果。

【技术特征摘要】
1.一种基于MPP引擎的跨数据中心快速查询方法,其步骤包括:1)将不同MPP引擎中的数据进行统一标记并存储到元数据中,保证元数据在全局中心节点和各数据分中心节点的一致性;2)全局中心节点接收查询请求并对其进行语法解析,解析成功后生成每个数据分中心节点的查询请求并将其发送到对应的数据分中心节点;3)各数据分中心节点接收查询请求并对其进行语法解析,通过元数据的相应MPP引擎进行查询,查询成功后将数据传输给全局中心节点;4)全局中心节点接收到所有数据分中心节点回传的数据后,将数据存储到底层存储引擎;5)全局中心节点利用MPP引擎对数据分中心节点返回的数据进行快速查询,并输出查询结果。2.如权利要求1所述的方法,其特征在于:步骤1)利用Hive元数据组件将不同MPP引擎中的数据以数据表属性的方式统一存储到元数据中。3.如权利要求1所述的方法,其特征在于:步骤2)中若解析失败,则返回语法错误。4.如权利要求1所述的方法,其特征在于:步骤3)中若查询失败且没有超过重查次数,则进行重查,若超过重查次数,则返回查询错误。5.如权利要求4所述的方法,其特征在于:步骤3)中若数据传输成功,则数据分中心节点结束本次查询,若传输失败且没有超过重传次数,则进行重传,否则返回传输错误。6.如权利要求1所述的方法,其特征在于:步骤3)中各数据分中心节点在接受查询请求后...

【专利技术属性】
技术研发人员:毕慧付戈李超王振宇李斌斌王树鹏
申请(专利权)人:国家计算机网络与信息安全管理中心
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1