一种基于分布式结构的并行数据处理方法技术

技术编号:9381831 阅读:112 留言:0更新日期:2013-11-28 00:13
本发明专利技术涉及一种基于分布式结构的并行数据处理方法,其存储步骤包括:1)根据主键值类型在主节点抽取得到数据主键值,在主节点中根据数据属性取值与区间对比结果确定数据分发的定向从节点,同时建立全局关键字B+树索引;2)根据全局关键字B+树索引基于share-nothing原则将数据分发到主键值对应的从节点;3)在从节点接受数据分发请求,在本地基于share-everything原则将数据存储在子节点中。本发明专利技术中结合有效的索引机制,提高系统数据存储与管理的效率;一方面保证数据合理分布,降低从节点存储吞吐,提高局部查询性能,利用从节点高可扩展性保证系统弹性;另一方面通过局部多副本复制保证局部副本安全。

【技术实现步骤摘要】
一种基于分布式结构的并行数据处理方法
本专利技术面向地理信息系统、时空数据管理、位置相关服务、大规模传感器流数据管理等领域,针对云计算环境中超大规模海量数据的存储、检索与高效访问需求,提出了一种集键-值数据库(Key-ValueStore)和关系数据库双方优势的RDB-KV并行云数据库存储与检索方法,实现兼备键值存储高效访问特性与数据库完整特性的海量数据存储技术。
技术介绍
云计算是当前信息技术发展的重要方向。基于云平台的计算与存储服务因底层架构基础设施的变化,在应用模式、应用范围以及技术需求上发生了重大变革。云存储是在云计算(cloudcomputing)概念上延伸和发展出来的一个新的概念,是指通过集群应用、网格技术或分布式文件系统等功能,将网络中大量各种不同类型的存储设备通过应用软件集合起来协同工作,共同对外提供数据存储和业务访问功能的一个系统。当云计算系统运算和处理的核心是大量数据的存储和管理时,云计算系统中就需要配置大量的存储设备,那么云计算系统就转变成为一个云存储系统,所以云存储是一个以数据存储和管理为核心的云计算系统。分布、并行是云存储的基本特点。在云存储的环境中,存储节点之间构成复杂的互相依赖关系。为了有效利用资源、提高存储服务的性能,数据通常根据一定原则分布在特定集群节点范围内容。这些集群节点通过“数据池”等方式将片段数据存储在本地环境中。为了保障数据的安全,集群节点内部又将这一特定片段数据进行多副本复制与分发。集群内部的储存设备之间构成多个副本。这样从整体上,保证数据的有效分散与安全。云存储的推广带动了存储技术的发展。云存储的高弹性、并行性等特点可以很好的满足日益膨胀的企业应用发展。企业业务在向云环境的迁移过程中,需要将相关数据植入云存储的分布式并行存储环境中。在传统的企业应用中,数据支撑环境通常构建在关系数据库中。在关系数据模型的基础上,依据业务逻辑设计基本库表结构。在设计阶段,以独立事物对象或业务单步活动为数据粒度划分的原则。将一组属性构成基本粒度数据的表征全集,以此构成一个独立二维表的基本结构。为满足复杂逻辑中数据一致性与完全性,在库表设计的过程中,不同表项之间通常存在复杂的约束与依赖关系;在数据更新的过程中,利用这些表项之间的约束关系,实现全局范围内数据一致性的校核。另一方面,在业务数据查询的过程中,通常一个查询任务涉及多个基本粒度数据模型的交叉、组合。这些任务以关系代数为基础构造查,利用jion等复杂操作满足查询任务的基本要求。在传统的存储环境中,成熟的关系数据库管理系统依托关系数据库模型,借助于集合代数等概念和方法来处理数据库中的数据。此类关系数据库建立在严格的数学概念的基础上的。关系模型的概念单一,无论实体还是实体之间的联系都用关系表示,操作的对象和操作的结果都是关系,所以其数据结构简单、清晰,用户易懂易用。关系模型的存取路径对用户透明,从而具有更高的数据独立性、更好的安全保密性,也简化了程序员的工作和数据库开发建立的工作。随着企业应用规模的不断膨胀,关系数据库的在性能方便的瓶颈问题日益凸显,因数据海量性、异构性、高并发性等特点导致的数据集成环境性能低下的问题成为影响企业发展以及信息技术推广的一个核心问题。另一方面,云存储的兴起为海量高并发数据的应用与管理提供了物质支持。云存储因其自身高弹性,高伸缩性、高并发性等特点可以很好的为企业应用的迅速扩展提供服务。然而,传统的云存储在技术层面以none-sql等模式为基础。在应对以关系代数为基础的传统数据库迁移的过程中,存在以下基本问题:1)海量数据对传统存储架构的挑战:传统的数据管理系统以关系代数与关系数据为存储架构的设计依据。在传统的应用中,由于关系数据之间存在复杂的依赖与约束关系;这些数据管理系统多以集中式的架构实现存储管理。随着数据规模的膨胀,部分成熟数据管理系统利用分布式结构、以多副本平行复制、CDN等方式在多节点之间实现数据的统一组织与管理。以oraclerac等为代表,在数据查询等活动中,在本质上,节点局部内仍以数据全集为基本范围执行查询任务。这就导致系统查询性能存在瓶颈制约。同时,系统中数据吞吐量严重影响了整体稳定性与可靠性。这一不足之处严重影响了服务计算规模与处理质量的提升;2)基于RDB的查询与可支持KV查询矛盾:键-值查询是云存储的一个基本特点,同时也是云存储高性能实现的技术保证。在非结构化数据管理的过程中数据本体用于基本存储。数据属性经过抽象后,形成对本体取值描述的key。数据管理系统通过key的排列、组合形成有序的键索引机制。在查询过程中,依据一定的排序规则通过key的比对、匹配实现数据本体的快速定位与访问。另一方面,结构化数据本身具有明确的数据项结构定义。在数据组织与存储的过程中,数据本体经过处理其取值存放在所属表项行目中。各个表中的数据存储过程中,不存在统一的特征抽取、key值排序的步骤。从全局的角度出发,不能支持全部表对象统一的key值对应数据本体查询;这一矛盾导致RDB查询与KV查询结合的困难;3)海量数据分析对高性能查询的挑战:服务计算涉及大量复杂要素、对象属性、监测数据、多媒体数据、遥感数据以及各种非结构化数据的复杂访问。另一方面,围绕服务计算中数据的空间分布性特点,底层数据多以分布式方式实现组织与管理。因此高性能并行查询成为提高数据访问工作性能的必然手段。然而,在传统GIS平台依赖的数据管理系统中,由于架构上存在先天性的不足,导致在高性能查询方面存在无法逾越的机制限制。这就导致GIS平台在面对日益膨胀的地理数据,在基本查询方面就存在缺陷。因此,需要在并行存储架构的技术上,实现高性能并行查询的任务组织、调度,数据汇聚与过滤的相关技术,满足服务计算对海量数据高性能访问的核心需求;
技术实现思路
针对上述问题,本专利技术的目的在于提供一种基于分布式环境的并行数据集群处理方法,其目的是在分布式环境并行架构的基础上,实现海量数据的有序组织、检索与查询服务,实现集键-值数据库(Key-ValueStore)和关系数据库双方优势的RDB-KV云数据库存储与检索。提供兼备键值存储高效访问特性与数据库完整特性的海量数据存储技术;满足如物联网传感器数据、多媒体数据、交通网络数据、移动对象时空数据等数据的管理与查询。为了实现上述目的,本专利技术所采用的技术方案为:一种基于分布式结构的并行数据存储方法,其步骤包括:1)根据主键值类型在主节点抽取得到数据主键值,在所述主节点中根据数据属性取值与区间对比结果确定数据分发的定向从节点,同时建立全局关键字B+树索引;2)根据所述全局关键字B+树索引基于share-nothing原则将数据分发到所述主键值对应的从节点;3)在所述从节点接受数据分发请求,在本地基于share-everything原则将数据存储在子节点中。更进一步,根据所述share-nothing原则将数据从主节点转发到各个从节点,且从节点间的数据不互为副本;根据所述share-everything原则将子节点中之间的数据在本地集群中进行多副本复制且子节点间的数据互为副本。更进一步,将数据分发到所述主键值对应的从节点的步骤如下:1)利用预先注册的分发策略从当前数据中提取指定的列对应的数据内容构成当前数据属性,根本文档来自技高网
...
一种基于分布式结构的并行数据处理方法

【技术保护点】
一种基于分布式结构的并行数据存储方法,其步骤包括:1)根据主键值类型在主节点抽取得到数据主键值,在所述主节点中根据数据属性取值与区间对比结果确定数据分发的定向从节点,同时建立全局关键字B+树索引;2)根据所述全局关键字B+树索引基于share?nothing原则将数据分发到所述主键值对应的从节点;3)在所述从节点接受数据分发请求,在本地基于share?everything原则将数据存储在子节点中。

【技术特征摘要】
1.一种基于分布式结构的并行数据存储方法,其步骤包括:1)根据主键值类型在主节点抽取得到数据主键值,在所述主节点中根据数据属性取值与区间对比结果确定数据分发的定向从节点,同时建立全局关键字B+树索引;主键值类型包括文本属性取值、数值区间取值以及空间栅格三种基本类型;2)根据所述全局关键字B+树索引基于share-nothing原则将数据分发到所述主键值对应的从节点,包括以下分步骤:2‐1)利用预先注册的分发策略从当前数据中提取指定的列对应的数据取值构成当前数据属性,根据策略类型抽取该属性作为当前数据的主键值;2‐2)所述分发策略信息注册在全局关键字分区表中,根据当前数据表对应类型的全局关键字B+树获取当前数据键值对应的映射关系对;2-3)通过这一映射关系对绑定特定的从节点,实现基于主键值取值的定向发送;其中,全局关键字B+树由一存放在根结点的全局关键字分区表和一组关键字到分发从节点标识的映射组成;根据所述主键值类型建立与全局关键字B+树索引一一对应的B+树索引包括:关键词/字索引、关键值索引以及空间栅格索引三种基本类型;3)在所述从节点接受数据分发请求,在本地基于share-everything原则将数据存储在子节点中。2.如权利要求1所述的基于分布式结构的并行数据存储方法,其特征在于,根据所述share-nothing原则将数据从主节点转发到各个从节点,且从节点间的数据不互为副本;根据所述share-everything原则将子节点中之间的数据在本地集群中进行多副本复制且子节点间的数据互为副本。3.如权利要求1所述的基于分布式结构的并行数据存储方法,其特征在于,不同类型主键值的抽取与构造按照如下一种或者多种方式进行:文本属性取值策略:数据在注册阶段将当前表以特定列取值作为全局关键词的依据;在分发过程中,文本全局关键字树和与其对应的全局关键字分区表中会记录当前表中对应文本取值的数据定向发送的节点标识从节点,当前表中所有特定列取值为该文本的数据定向发送到个节点中;和/或者数值区间取值策略:数据在注册阶段将当前表以特定列取值作为全局关键值的依据,所述特定列的数据由数值型构成;在分发过程中,数值全局关键字树和与其对应的全局关键字分区表中会记录当前表中对应数值取值区间的数据定向发送的节点标识从节点,当前表中所有特定列取值为该数值取值的数据定向发送到个节点中;和/或者空间栅格策略:数据在注册阶段将确定空间取值对应的特定列,所述特定列的数据由空间地理坐标构成;在分发过程中,空间栅格全局关键字和与其对应的全局关键字分区表中会记录当前表中...

【专利技术属性】
技术研发人员:郭皓明丁治明刘奎恩许佳捷徐怀野李亚光张天为
申请(专利权)人:中国科学院软件研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1