一种大数据分布式存储方法和系统技术方案

技术编号：15105324 阅读：82 留言：0更新日期：2017-04-08 15:52

本发明专利技术提供了一种大数据分布式存储方法和系统，该方法包括：将数据管理引擎运行在主节点上，对用户查询进行编译、转换和优化、生成查询执行计划并执行，进行元数据管理和节点监控；在分布式计算节点上运行服务器进程，执行分布式计算任务；将分布式计算的工作进程以及单节点数据库部署在数据节点；将子查询在数据库中执行或者在分布式计算框架中执行。本发明专利技术增加了将查询下推到数据库中执行的机会，避免跨节点连接带来的数据传输代价，提高了查询性能。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及云存储，特别涉及一种大数据分布式存储方法和系统。
技术介绍
随着移动互联网、物联网等应用的飞速发展，全球数据量出现了爆炸式增长。数据量的飞速增长预示着现在已经进入了大数据时代。网络运营商拥有庞大的用户，同时具有对终端及用户上网通道的掌控能力，使得在用户行为分析方面具有很好的数据基础，深入分析用户流量行为特征和规律，发现用户潜在消费需求，是提升价值和经营水平的有效手段。然而，不仅仅是数据规模越来越大，而且数据类型多和处理实时性要求都极大地增加了大数据处理的复杂度。大数据给传统的数据分析处理技术(例如并行数据库、数据仓库)带来的技术挑战。传统数据分析处理技术无法处理大数据的高扩展性和海量需求；传统数据分析处理往往只针对某一种类型数据和比较单一，大数据具有数据量巨大、结构复杂、类型众多等特点，这对大数据的存储、处理与分析提出了新的挑战。并行数据库的高效性和稳定性成为数据分析在性能上的首选。但是基于成本的考虑，随着云计算服务平台的普及，将大规模数据分析任务从部署在并行数据库的高端服务器转移至更便宜的无共享体系结构的低端服务器集群上，成为当下海量数据分析真正需要解决的成本瓶颈问题。因此，针对相关技术中所存在的上述问题，目前尚未提出有效的解决方案。
技术实现思路
为解决上述现有技术所存在的问题，本专利技术提出了一种大数据分布式存储方法，包括：一种大数据分布式存储方法，用于在云存储系统中实现大...

【技术保护点】
一种大数据分布式存储方法，用于在云存储系统中实现大数据的存储和查询，所述云存储系统包括主节点，分布式计算节点和数据节点，其特征在于，包括：将数据管理引擎运行在主节点上，接收用户查询，对查询进行编译、转换和优化、生成查询执行计划并执行查询，同时进行元数据管理和节点监控；在分布式计算节点上运行服务器进程，执行分布式计算任务；将分布式计算的工作进程以及单节点数据库部署在数据节点，将数据表存储在数据节点的数据库中；将由用户查询转换成的子查询在数据库中执行，或者在分布式计算框架中执行。

【技术特征摘要】
1.一种大数据分布式存储方法，用于在云存储系统中实现大数据的存储和查询，
所述云存储系统包括主节点，分布式计算节点和数据节点，其特征在于，包括：
将数据管理引擎运行在主节点上，接收用户查询，对查询进行编译、转换和优
化、生成查询执行计划并执行查询，同时进行元数据管理和节点监控；在分布
式计算节点上运行服务器进程，执行分布式计算任务；将分布式计算的工作进
程以及单节点数据库部署在数据节点，将数据表存储在数据节点的数据库中；
将由用户查询转换成的子查询在数据库中执行，或者在分布式计算框架中执行。
2.根据权利要求1所述的方法，其特征在于，所述数据表使用二维关系表结构，
数据表的存储采用独立划分存储和组合划分存储，其中：在对表进行独立划分
时，指定划分数n、划分所依据的划分键属性列AP以及冗余系数k。对于需
要划分的表的每一条元组，根据划分键AP的值计算出该元组所属的划分ID，
然后将该元组存储到该划分对应的一个或者多个节点的数据库中；如果事实表
A的划分键AP上是表A的外码，指向维表B的主码BP即表A的划分键
AP也是表A与表B连接时使用的连接键，则将跨节点的连接操作转化为本
地的连接操作并下推到数据库中执行，此时将两个表的...

【专利技术属性】
技术研发人员：李东，
申请(专利权)人：青岛金讯网络工程有限公司，
类型：发明
国别省市：山东;37

全部详细技术资料下载我是这个专利的主人