一种基于分布式结构的并行数据处理方法技术

技术编号：9381831 阅读：112 留言：0更新日期：2013-11-28 00:13

本发明专利技术涉及一种基于分布式结构的并行数据处理方法，其存储步骤包括：1）根据主键值类型在主节点抽取得到数据主键值，在主节点中根据数据属性取值与区间对比结果确定数据分发的定向从节点，同时建立全局关键字B+树索引；2）根据全局关键字B+树索引基于share-nothing原则将数据分发到主键值对应的从节点；3）在从节点接受数据分发请求，在本地基于share-everything原则将数据存储在子节点中。本发明专利技术中结合有效的索引机制，提高系统数据存储与管理的效率；一方面保证数据合理分布，降低从节点存储吞吐，提高局部查询性能，利用从节点高可扩展性保证系统弹性；另一方面通过局部多副本复制保证局部副本安全。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于分布式结构的并行数据处理方法
本专利技术面向地理信息系统、时空数据管理、位置相关服务、大规模传感器流数据管理等领域，针对云计算环境中超大规模海量数据的存储、检索与高效访问需求，提出了一种集键-值数据库（Key-ValueStore）和关系数据库双方优势的RDB-KV并行云数据库存储与检索方法，实现兼备键值存储高效访问特性与数据库完整特性的海量数据存储技术。
技术介绍
云计算是当前信息技术发展的重要方向。基于云平台的计算与存储服务因底层架构基础设施的变化，在应用模式、应用范围以及技术需求上发生了重大变革。云存储是在云计算(cloudcomputing)概念上延伸和发展出来的一个新的概念，是指通过集群应用、网格技术或分布式文件系统等功能，将网络中大量各种不同类型的存储设备通过应用软件集合起来协同工作，共同对外提供数据存储和业务访问功能的一个系统。当云计算系统运算和处理的核心是大量数据的存储和管理时，云计算系统中就需要配置大量的存储设备，那么云计算系统就转变成为一个云存储系统，所以云存储是一个以数据存储和管理为核心的云计算系统。分布、并行是云存储的基本特点。在云存储的环境中，存储节点之间构成复杂的互相依赖关系。为了有效利用资源、提高存储服务的性能，数据通常根据一定原则分布在特定集群节点范围内容。这些集群节点通过“数据池”等方式将片段数据存储在本地环境中。为了保障数据的安全，集群节点内部又将这一特定片段数据进行多副本复制与分发。集群内部的储存设备之间构成多个副本。这样从整体上，保证数据的有效分散与安全。云存储的推广带动了存储技术的发展。云存储的高弹性、并行...
一种基于分布式结构的并行数据处理方法

【技术保护点】
一种基于分布式结构的并行数据存储方法，其步骤包括：1）根据主键值类型在主节点抽取得到数据主键值，在所述主节点中根据数据属性取值与区间对比结果确定数据分发的定向从节点，同时建立全局关键字B+树索引；2）根据所述全局关键字B+树索引基于share?nothing原则将数据分发到所述主键值对应的从节点；3）在所述从节点接受数据分发请求，在本地基于share?everything原则将数据存储在子节点中。

【技术特征摘要】
1.一种基于分布式结构的并行数据存储方法，其步骤包括：1)根据主键值类型在主节点抽取得到数据主键值，在所述主节点中根据数据属性取值与区间对比结果确定数据分发的定向从节点，同时建立全局关键字B+树索引；主键值类型包括文本属性取值、数值区间取值以及空间栅格三种基本类型；2)根据所述全局关键字B+树索引基于share-nothing原则将数据分发到所述主键值对应的从节点，包括以下分步骤：2‐1)利用预先注册的分发策略从当前数据中提取指定的列对应的数据取值构成当前数据属性，根据策略类型抽取该属性作为当前数据的主键值；2‐2)所述分发策略信息注册在全局关键字分区表中，根据当前数据表对应类型的全局关键字B+树获取当前数据键值对应的映射关系对；2-3)通过这一映射关系对绑定特定的从节点，实现基于主键值取值的定向发送；其中，全局关键字B+树由一存放在根结点的全局关键字分区表和一组关键字到分发从节点标识的映射组成；根据所述主键值类型建立与全局关键字B+树索引一一对应的B+树索引包括：关键词/字索引、关键值索引以及空间栅格索引三种基本类型；3)在所述从节点接受数据分发请求，在本地基于share-everything原则将数据存储在子节点中。2.如权利要求1所述的基于分布式结构的并行数据存储方法，其特征在于，根据所述share-nothing原则将数据从主节点转发到各个从节点，且从节点间的数据不互为副本；根据所述share-everything原则将子节点中之间的数据在本地集群中进行多副本复制且子节点间的数据互为副本。3.如权利要求1所述的基于分布式结构的并行数据存储方法，其特征在于，不同类型主键值的抽取与构造按照如下一种或者多种方式进行：文本属性取值策略：数据在注册阶段将当前表以特定列取值作为全局关键词的依据；在分发过程中，文本全局关键字树和与其对应的全局关键字分区表中会记录当前表中对应文本取值的数据定向发送的节点标识从节点，当前表中所有特定列取值为该文本的数据定向发送到个节点中；和/或者数值区间取值策略：数据在注册阶段将当前表以特定列取值作为全局关键值的依据，所述特定列的数据由数值型构成；在分发过程中，数值全局关键字树和与其对应的全局关键字分区表中会记录当前表中对应数值取值区间的数据定向发送的节点标识从节点，当前表中所有特定列取值为该数值取值的数据定向发送到个节点中；和/或者空间栅格策略：数据在注册阶段将确定空间取值对应的特定列，所述特定列的数据由空间地理坐标构成；在分发过程中，空间栅格全局关键字和与其对应的全局关键字分区表中会记录当前表中...

【专利技术属性】
技术研发人员：郭皓明，丁治明，刘奎恩，许佳捷，徐怀野，李亚光，张天为，
申请(专利权)人：中国科学院软件研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人