一种数据处理方法和系统技术方案

技术编号:27006288 阅读:15 留言:0更新日期:2021-01-08 17:09
本发明专利技术公开了一种数据处理方法和系统,涉及计算机技术领域。该方法的一具体实施方式包括:所述用户模块,包括元数据集群、计算集群和共享存储,所述计算集群位于所述元数据集群和所述共享存储之间,用于从所述元数据集群中获取元数据,以及将数据落盘在所述共享存储;所述管理模块,用于监控所述用户模块的运维信息、管理所述元数据集群和所述计算集群级别的增删改查操作。该实施方式将计算与存储解耦,建立虚拟节点解决了存储节点扩容或缩容时数据需迁移的问题,以实现MPP数据库扩展性与并发性的突破。

【技术实现步骤摘要】
一种数据处理方法和系统
本专利技术涉及计算机
,尤其涉及一种数据处理方法和系统。
技术介绍
传统数仓一般使用MPP(MassivelyParallelProcessing大规模并行处理)或OracleRAC架构数据库作为底层技术,均属于shared-nothing架构,这种架构下计算和存储是紧耦合的。随着近年来数据量的成倍增长,对数据库的存储与工作负载能力提出了更高的要求,同时由于架构本身的限制,也带来了一些问题:1)并发能力限制:数据打散分布到各个计算节点存储,每个计算节点都需要参与到每条查询执行当中,而每个计算节点只能访问本地存储的数据;集群节点在横向扩容/缩容时会涉及数据重分布,当数据量比较庞大时,重分布过程耗时较长,因此单节点的硬件资源成为制约整个集群并发性的因素。2)集群大小的限制:当集群节点数大到一定程度时,节点故障的概率会显著增加,频繁的节点切换操作会导致数据库处于不可用状态,一定程度上制约着集群规模的增长。基于以上两点,如何突破数据库扩展性与并发的限制,成为制约当前数据库发展的主要因素,影响海量数据的规模化存储。
技术实现思路
有鉴于此,本专利技术实施例提供一种数据处理方法和系统,至少能够解决现有技术中计算和存储紧耦合的现象。为实现上述目的,根据本专利技术实施例的另一方面,提供了一种数据处理系统,包括管理模块和用户模块,所述用户模块,包括元数据集群、计算集群和共享存储,所述计算集群位于所述元数据集群和所述共享存储之间,用于从所述元数据集群中获取元数据,以及将数据落盘在所述共享存储;其中,元数据用于描述数据的属性信息;所述管理模块,用于监控所述用户模块的运维信息、管理所述元数据集群和所述计算集群级别的增删改查操作。可选的,所述元数据集群包括调度层、服务层以及存储层;所述调度层一侧与所述计算集群连接,另一侧与所述服务层连接,用于根据所述计算集群传输的元数据服务请求中的服务类型,确定所述服务层中处理所述元数据服务请求的服务节点,以将所述服务节点的标识传输至所述计算集群;所述服务层由一组无状态的服务节点组成,一侧与所述计算集群连接,另一侧与所述存储层连接,用于接收所述计算集群传输的元数据服务请求,落盘到所述存储层上进行元数据结构的读写修改操作,以及将接收自所述存储层的执行结果反馈至所述计算集群;所述存储层与所述服务层连接,用于进行元数据结构的读写修改操作,并在执行完毕后,将执行结果传输至所述服务层。可选的,所述存储层还负责多副本存储元数据。可选的,所述计算集群包括多个子计算集群,每个子计算集群为用户登陆所述用户模块的接口,包括一个管理节点和多个计算节点;所述管理节点从所述元数据集群中获取元数据,以在接收到业务需求时,确定与所述业务需求对应的至少一个元数据;以及汇总计算节点传输的计算结果并转发;所述计算节点从所述共享存储中获取与所述至少一个元数据对应的数据,对所获取的数据进行逻辑计算,将计算结果传输至所述管理节点。可选的,所述计算集群还设置有缓存层,用于缓存所述计算集群经常访问的数据和元数据;其中,经常访问为访问频度大于或等于预设访问频率。为实现上述目的,根据本专利技术实施例的一个方面,提供了一种数据处理方法,包括:所述共享存储接收所述计算集群传输的数据,确定所述数据所处记录,对所述记录的键值进行哈希处理,得到哈希值;确定哈希环中与所述哈希值对应的物理分区,以将所述数据存储至与所述物理分区对应的存储节点中。可选的,在所述共享存储接收所述计算集群传输的数据之前,还包括:对一存储节点的节点名称进行哈希处理,得到第一哈希值,确定所述哈希环中与所述第一哈希值对应的第一位置;按照顺时针方向,获取所述哈希环中与所述第一位置相邻的下一位置,由所述第一位置和下一位置构建一物理分区,建立所述一物理分区与所述一存储节点之间的映射关系。可选的,一个物理分区对应于至少一个虚拟分区;所述方法还包括:对一虚拟节点的节点名称进行哈希处理,得到第二哈希值,确定所述哈希环中与所述第二哈希值对应的第二位置;按照顺时针方向,获取所述哈希环中与所述第二位置相邻的下一位置,由所述第二位置和下一位置构建一虚拟分区,建立所述一虚拟节点和所述一虚拟分区之间的映射关系;基于虚拟节点和存储节点之间的对应关系,建立物理分区与虚拟分区之间的映射关系;所述确定哈希环中与所述哈希值对应的物理分区,包括:确定所述哈希环中与所述哈希值对应的虚拟分区,基于物理分区与虚拟分区之间的映射关系,确定物理分区。可选的,还包括:接收存储节点扩容/缩容指令,在所述计算集群的一管理节点中注册/删除至少一个存储节点;根据存储节点的当前总数量和虚拟节点的总数量,调整存储节点和虚拟节点之间的对应关系。可选的,包括:所述元数据集群中调度层根据一管理节点传输的元数据服务请求中的服务类型,确定服务层中处理所述元数据服务请求的服务节点;将所述服务节点的标识反馈至所述一管理节点,以使得所述一管理节点根据所述标识建立与所述服务节点的通信连接;服务节点接收所述一个管理节点传输的元数据服务请求,以对所述存储层中的元数据结构进行修改和保存;存储层在元数据结构修改完毕后,将执行结果传输至所述服务层,以通过所述服务层将执行结果反馈至所述一管理节点。为实现上述目的,根据本专利技术实施例的再一方面,提供了一种数据处理电子设备。本专利技术实施例的电子设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现上述任一所述的数据处理方法。为实现上述目的,根据本专利技术实施例的再一方面,提供了一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现上述任一所述的数据处理方法。根据本专利技术所述提供的方案,上述专利技术中的一个实施例具有如下优点或有益效果:基于共享存储的MPP数据库计算与存储分离架构,按照功能划分为管理模块和用户模块。数据存储在共享存储上,元数据存储在元数据集群上,元数据/数据的获取都需在集群之间进行通信,以此提高运行效率。后续即使存储节点需要扩容,但改变的也仅仅是存储节点与虚拟节点之间的对应关系,与虚拟节点对应的数据并未发生迁移,以此解决了现有集群扩容缩容时数据需重分布的缺点。上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。附图说明附图用于更好地理解本专利技术,不构成对本专利技术的不当限定。其中:图1是根据本专利技术实施例的一种数据处理方法的主要流程示意图;图2是本专利技术实施例的一种元数据集群的结构示意图;图3是根据本专利技术实施例的一种数据处理方法的流程示意图;图4(a)~图4(c)是hash环的构造示意图;图5是根据本专利技术实施例的一种可选的数据处理方法的流程示意图;图6是本专利技术实施本文档来自技高网...

【技术保护点】
1.一种数据处理系统,包括管理模块和用户模块,其特征在于:/n所述用户模块,包括元数据集群、计算集群和共享存储,所述计算集群位于所述元数据集群和所述共享存储之间,用于从所述元数据集群中获取元数据,以及将数据落盘在所述共享存储;其中,元数据用于描述数据的属性信息;/n所述管理模块,用于监控所述用户模块的运维信息、管理所述元数据集群和所述计算集群级别的增删改查操作。/n

【技术特征摘要】
1.一种数据处理系统,包括管理模块和用户模块,其特征在于:
所述用户模块,包括元数据集群、计算集群和共享存储,所述计算集群位于所述元数据集群和所述共享存储之间,用于从所述元数据集群中获取元数据,以及将数据落盘在所述共享存储;其中,元数据用于描述数据的属性信息;
所述管理模块,用于监控所述用户模块的运维信息、管理所述元数据集群和所述计算集群级别的增删改查操作。


2.根据权利要求1所述的系统,其特征在于,所述元数据集群包括调度层、服务层以及存储层;
所述调度层一侧与所述计算集群连接,另一侧与所述服务层连接,用于根据所述计算集群传输的元数据服务请求中的服务类型,确定所述服务层中处理所述元数据服务请求的服务节点,以将所述服务节点的标识传输至所述计算集群;
所述服务层由一组无状态的服务节点组成,一侧与所述计算集群连接,另一侧与所述存储层连接,用于接收所述计算集群传输的元数据服务请求,落盘到所述存储层上进行元数据结构的读写修改操作,以及将接收自所述存储层的执行结果反馈至所述计算集群;
所述存储层与所述服务层连接,用于进行元数据结构的读写修改操作,并在执行完毕后,将执行结果传输至所述服务层。


3.根据权利要求2所述的系统,其特征在于,所述存储层还负责多副本存储元数据。


4.根据权利要求1所述的系统,其特征在于,所述计算集群包括多个子计算集群,每个子计算集群为用户登陆所述用户模块的接口,包括一个管理节点和多个计算节点;
所述管理节点从所述元数据集群中获取元数据,以在接收到业务需求时,确定与所述业务需求对应的至少一个元数据;以及汇总计算节点传输的计算结果并转发;
所述计算节点从所述共享存储中获取与所述至少一个元数据对应的数据,对所获取的数据进行逻辑计算,将计算结果传输至所述管理节点。


5.根据权利要求1所述的系统,其特征在于,所述计算集群还设置有缓存层,用于缓存所述计算集群经常访问的数据和元数据;其中,经常访问为访问频度大于或等于预设访问频率。


6.一种使用如权利要求1所述的数据处理系统的数据处理方法,其特征在于,包括:
所述共享存储接收所述计算集群传输的数据,确定所述数据所处记录,对所述记录的键值进行哈希处理,得到哈希值;
确定哈希环中与所述哈希值对应的物理分区,以将所述数据存储至与所述物理分区对应的存储节点中。


7.根据权利要求6所述的方法,...

【专利技术属性】
技术研发人员:邓宇吕文栋陈晓新蔡雅琼
申请(专利权)人:中国建设银行股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1