基于Infiniband网络的分布式并行数据库系统及数据处理方法技术方案

技术编号:21453935 阅读:31 留言:0更新日期:2019-06-26 04:46
本发明专利技术公开了一种基于Infiniband网络的分布式并行数据库系统及数据处理方法,系统包括调度集群、数据集群和管理集群,每个集群由至少2台数据节点组成,数据节点之间使用Infiniband网络连接;数据处理方法包括了数据分布方法、数据加载方法、数据查询方法和数据去重方法。本发明专利技术针对分布式并行处理数据库集群节点服务器数量多的现状,充分利用Infiniband网络高带宽、低延时、低内存的特性,设计将网络应用到数据的方式,其中包括数据库系统配置、数据加载入库、数据查询和数据计算等。本发明专利技术通用性强,突破了当前数据库系统的网络带宽瓶颈、存储空间和计算延时的限制,保证系统高可用性,为用户提供高性能服务。

【技术实现步骤摘要】
基于Infiniband网络的分布式并行数据库系统及数据处理方法
本专利技术涉及分布式并行数据库系统及数据处理方法,特别是涉及一种基于Infiniband网络的分布式并行数据库系统及数据处理方法。
技术介绍
数据库技术产生于20世纪年代后期,其理论与技术发展极为迅速,应用也日益广泛。随着微型计算机的广泛应用,为加强和扩大微型计算机处理数据的功能,要求将许多分布在不同地点上的微型计算机互连起来参与共同工作。这样数据库进入了分布式数据库时代。20世纪90年代以来,分布式数据库系统进入商品化应用阶段,传统的关系数据库产品发展成以计算机网络及多任务操作系统为核心的分布式数据库产品。传统的数据库技术日趋成熟、计算机网络技术的飞速发展和应用范围的扩充,数据库应用已经普遍建立于计算机网络之上。这时集中式数据库系统表现出它的不足:数据按实际需要已在网络上分布存储,再采用集中式处理,势必造成通信开销大;应用程序集中在一台计算机上运行,一旦该计算机发生故障,则整个系统受到影响,可靠性不高;集中式处理引起系统的规模和配置都不够灵活,系统的可扩充性差。在这种形势下,集中式数据库的“集中计算”概念向“分布计算”概念发展,以分布式为主要特征的数据库系统的研究与开发受到人们的注意。分布式并行处理数据库是数据库技术与网络技术相结合的产物,在数据库领域已形成一个分支。在分布式并行处理数据库中,涉及数据存储、数据入库、数据查询等核心业务,因此服务器间数据传输量巨大,在特定条件下,目前的万兆网会因网络吞吐量不能满足多服务器数据处理速度而形成瓶颈,影响整体分布式并行处理数据库集群性能,另一方面,万兆网在内存损耗,数据处理延时等方面日益不能满足要求。分布式数据库系统需要一种更先进的网络基础,以及与之相配套的系统和配置方式。
技术实现思路
专利技术目的:本专利技术要解决的技术问题是提供一种基于Infiniband网络的分布式并行数据库系统及数据处理方法,解决了现有万兆网网络在分布式并行处理数据库中特定场景下的网络带宽瓶颈、内存损耗和数据处理延时等方面的问题,通过数据库系统架构、数据分布存储、数据加载模式和数据查询等方面的设计,为分布式并行数据库提供一整套数据处理方法,突破应用场景瓶颈,提升数据库集群数据处理性能。技术方案:本专利技术所述的基于Infiniband网络的分布式并行数据库系统,外接若干个数据源,系统中包括调度集群、数据集群和管理集群,每个集群由至少2台数据节点组成,数据节点之间使用Infiniband网络连接;所述调度集群,采用统一的访问接口,负责数据的分发、查询结果的收集汇总和任务调度,实现多路数据请求在多个数据节点上的并行处理;所述数据集群,用于整个数据库系统的数据存储和数据计算,接收来自经调度集群分解的任务并将分解的任务分布到指定的数据节点上进行相应计算,执行结果通过调度集群返回给应用程序;所述管理集群,用于管理整个数据库系统,存储数据库系统的关键信息。进一步的,所述管理集群存储的信息包括并不限于数据分布方式、各节点状态、主备节点一致性状态。进一步的,系统中设置的数据集群数据节点和所述数据源的数量比值为N,N为计算网络吞吐量和单数据节点加载速度的比值向下取整后的值。进一步的,所述数据库系统的4个配置参数heap_large、heap_data、heap_temp、buffer_insert的总和不超过系统总内存的80%。进一步的,数据节点包括主节点和备份节点,主节点和备份节点同时进行工作,其中一个节点出现异常之后,退出服务,由另外一个节点接管工作,当异常节点从异常状态恢复到正常状态后进行数据传输,进行数据的恢复工作,确保主节点和备份节点的分片数据一致性。本专利技术所述的一种数据处理方法,基于上述的系统,包括:调度节点将数据进行数据分片,将所述数据分片按照分片规则分布到数据节点上进行存储,并建立用于查询的索引;数据节点在从调度节点接受到各自的加载文件段指令后,会按照调度节点指定给它的文件偏移量读取文件,并进行Hash计算,同时按照Hash分布表映射,进行数据拆分处理,将拆分后的数据传输到对应的数据节点;调度节点控制数据节点,数据节点根据调度节点发送的查询条件对不符合条件的数据进行过滤,然后将所有过滤后的数据传输到调度节点所指定的一个数据节点上,若查询条件中还有排序要求,在此数据节点上进行排序。进一步的,所述的分片规则为Hash分片规则,所述的Hash分片规则,在创建Hash分布表时,通过指定某列为Hash分布列,数据入库时,根据Hash分布列的数据值计算Hash值,以确定该数据的存储分片。进一步的,所述的分片规则为随机分片规则,所述的随机分片规则,创建随机分布表时,使数据随机且均匀分布到数据集群所有分片上,并交由管理集群记录其分布等信息。进一步的,所述的分片规则为复制分片规则,所述的分片规则为根据具体业务要求将维度表设置为复制表,复制表在每个节点上存储完整数据。进一步的,方法还包括,调度节点控制数据节点进行去重,然后把所有数据节点上的去重后的数据传输到调度节点所指定的一个数据节点上来,再进行去重,统计数量。有益效果:本系统能够实现一种基于Infiniband网络的分布式并行数据库系统及数据处理方法,结合分布式并行处理数据库集群节点服务器数量多的现状,充分利用Infiniband网络高带宽、低延时、低内存的特性,设计将网络应用到数据的方式,其中包括数据库系统配置、数据加载入库、数据查询和数据计算等。本专利技术通用性强,突破了当前数据库系统的网络带宽瓶颈、存储空间和计算延时的限制,保证系统高可用性,为用户提供高性能服务。附图说明图1是本实施例数据库系统部署架构图;图2是数据分片示意图;图3是分片冗余备份示意图;图4是多节点提供服务示意图;图5是数据加载优化示意图;图6是网络RDMA过程图;图7是哈希分布示意图。具体实施方式本实施例的分布式并行处理数据库部署架构如图1所示,分布式并行处理数据库采用了联邦架构。本专利技术的数据库系统是分布式的,安装部署的时候需要两台或以上的服务器,以下将服务器成为节点,通常把这一系列具有相同功能或特点的N个节点称做集群,本专利技术按照功能把集群分为调度集群、数据集群和管理集群,对应的按照功能将节点分为调度节点和数据节点。本专利技术的调度集群包括分布式访问层和分布式定位层;所述分布式访问层采用统一的访问接口,使分布式并行处理数据库作为一个完整的逻辑整体进行访问;所述分布式定位层作为数据的分布和收集者,负责数据的分发、查询结果的收集汇总和任务调度;在查询访问多个数据节点上的数据时,并发式的访问处理能够实现多路数据请求在多个数据节点上的并行处理,从而实现了高效的分布式数据访问。本专利技术的数据集群包括分布式存储层和分布式计算层,负责整个数据库系统的数据存储和数据计算,接收来自经调度集群分解的任务并将分解的任务分布到指定的数据节点上进行相应计算,执行结果通过调度集群返回给应用程序;本专利技术的管理集群包括管理层,作为整个数据库系统的管理者,主要存储数据分布方式、各节点状态、主备节点一致性状态等关键信息。分布式并行数据库通过并行使用多个CPU和磁盘来将诸如装载数据、建立索引、执行查询等操作并行化以提升性能的数据库系统。在组成大规模计算机集群的时候本文档来自技高网
...

【技术保护点】
1.一种基于Infiniband网络的分布式并行数据库系统,外接若干个数据源,其特征在于:系统中包括调度集群、数据集群和管理集群,每个集群由至少2台数据节点组成,数据节点之间使用Infiniband网络连接;所述调度集群,采用统一的访问接口,负责数据的分发、查询结果的收集汇总和任务调度,实现多路数据请求在多个数据节点上的并行处理;所述数据集群,用于整个数据库系统的数据存储和数据计算,接收来自经调度集群分解的任务并将分解的任务分布到指定的数据节点上进行相应计算,执行结果通过调度集群返回给应用程序;所述管理集群,用于管理整个数据库系统,存储数据库系统的关键信息。

【技术特征摘要】
1.一种基于Infiniband网络的分布式并行数据库系统,外接若干个数据源,其特征在于:系统中包括调度集群、数据集群和管理集群,每个集群由至少2台数据节点组成,数据节点之间使用Infiniband网络连接;所述调度集群,采用统一的访问接口,负责数据的分发、查询结果的收集汇总和任务调度,实现多路数据请求在多个数据节点上的并行处理;所述数据集群,用于整个数据库系统的数据存储和数据计算,接收来自经调度集群分解的任务并将分解的任务分布到指定的数据节点上进行相应计算,执行结果通过调度集群返回给应用程序;所述管理集群,用于管理整个数据库系统,存储数据库系统的关键信息。2.根据权利要求1所述的基于Infiniband网络的分布式并行数据库系统,其特征在于:所述管理集群存储的信息包括并不限于数据分布方式、各节点状态、主备节点一致性状态。3.根据权利要求1所述的基于Infiniband网络的分布式并行数据库系统,其特征在于:系统中设置的数据集群数据节点和所述数据源的数量比值为N,N为计算网络吞吐量和单数据节点加载速度的比值向下取整后的值。4.根据权利要求1所述的基于Infiniband网络的分布式并行数据库系统,其特征在于:所述数据库系统的4个配置参数heap_large、heap_data、heap_temp、buffer_insert的总和不超过系统总内存的80%。5.根据权利要求1所述的基于Infiniband网络的分布式并行数据库系统,其特征在于:数据节点包括主节点和备份节点,主节点和备份节点同时进行工作,其中一个节点出现异常之后,退出服务,由另外一个节...

【专利技术属性】
技术研发人员:乔斌蒋树嵩张见豪袁烨查易艺
申请(专利权)人:江苏瑞中数据股份有限公司南瑞集团有限公司国家电网有限公司国网江苏省电力有限公司
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1