【技术实现步骤摘要】
一种数据处理方法和系统
本专利技术涉及计算机
,尤其涉及一种数据处理方法和系统。
技术介绍
传统数仓一般使用MPP(MassivelyParallelProcessing大规模并行处理)或OracleRAC架构数据库作为底层技术,均属于shared-nothing架构,这种架构下计算和存储是紧耦合的。随着近年来数据量的成倍增长,对数据库的存储与工作负载能力提出了更高的要求,同时由于架构本身的限制,也带来了一些问题:1)并发能力限制:数据打散分布到各个计算节点存储,每个计算节点都需要参与到每条查询执行当中,而每个计算节点只能访问本地存储的数据;集群节点在横向扩容/缩容时会涉及数据重分布,当数据量比较庞大时,重分布过程耗时较长,因此单节点的硬件资源成为制约整个集群并发性的因素。2)集群大小的限制:当集群节点数大到一定程度时,节点故障的概率会显著增加,频繁的节点切换操作会导致数据库处于不可用状态,一定程度上制约着集群规模的增长。基于以上两点,如何突破数据库扩展性与并发的限制,成为制约当前数据库发展的主要因素,影响海量数据的规模化存储。
技术实现思路
有鉴于此,本专利技术实施例提供一种数据处理方法和系统,至少能够解决现有技术中计算和存储紧耦合的现象。为实现上述目的,根据本专利技术实施例的另一方面,提供了一种数据处理系统,包括管理模块和用户模块,所述用户模块,包括元数据集群、计算集群和共享存储,所述计算集群位于所述元数据集群和所述共享存储之间,用于从所述元数据集群中获取 ...
【技术保护点】
1.一种数据处理系统,包括管理模块和用户模块,其特征在于:/n所述用户模块,包括元数据集群、计算集群和共享存储,所述计算集群位于所述元数据集群和所述共享存储之间,用于从所述元数据集群中获取元数据,以及将数据落盘在所述共享存储;其中,元数据用于描述数据的属性信息;/n所述管理模块,用于监控所述用户模块的运维信息、管理所述元数据集群和所述计算集群级别的增删改查操作。/n
【技术特征摘要】
1.一种数据处理系统,包括管理模块和用户模块,其特征在于:
所述用户模块,包括元数据集群、计算集群和共享存储,所述计算集群位于所述元数据集群和所述共享存储之间,用于从所述元数据集群中获取元数据,以及将数据落盘在所述共享存储;其中,元数据用于描述数据的属性信息;
所述管理模块,用于监控所述用户模块的运维信息、管理所述元数据集群和所述计算集群级别的增删改查操作。
2.根据权利要求1所述的系统,其特征在于,所述元数据集群包括调度层、服务层以及存储层;
所述调度层一侧与所述计算集群连接,另一侧与所述服务层连接,用于根据所述计算集群传输的元数据服务请求中的服务类型,确定所述服务层中处理所述元数据服务请求的服务节点,以将所述服务节点的标识传输至所述计算集群;
所述服务层由一组无状态的服务节点组成,一侧与所述计算集群连接,另一侧与所述存储层连接,用于接收所述计算集群传输的元数据服务请求,落盘到所述存储层上进行元数据结构的读写修改操作,以及将接收自所述存储层的执行结果反馈至所述计算集群;
所述存储层与所述服务层连接,用于进行元数据结构的读写修改操作,并在执行完毕后,将执行结果传输至所述服务层。
3.根据权利要求2所述的系统,其特征在于,所述存储层还负责多副本存储元数据。
4.根据权利要求1所述的系统,其特征在于,所述计算集群包括多个子计算集群,每个子计算集群为用户登陆所述用户模块的接口,包括一个管理节点和多个计算节点;
所述管理节点从所述元数据集群中获取元数据,以在接收到业务需求时,确定与所述业务需求对应的至少一个元数据;以及汇总计算节点传输的计算结果并转发;
所述计算节点从所述共享存储中获取与所述至少一个元数据对应的数据,对所获取的数据进行逻辑计算,将计算结果传输至所述管理节点。
5.根据权利要求1所述的系统,其特征在于,所述计算集群还设置有缓存层,用于缓存所述计算集群经常访问的数据和元数据;其中,经常访问为访问频度大于或等于预设访问频率。
6.一种使用如权利要求1所述的数据处理系统的数据处理方法,其特征在于,包括:
所述共享存储接收所述计算集群传输的数据,确定所述数据所处记录,对所述记录的键值进行哈希处理,得到哈希值;
确定哈希环中与所述哈希值对应的物理分区,以将所述数据存储至与所述物理分区对应的存储节点中。
7.根据权利要求6所述的方法,...
【专利技术属性】
技术研发人员:邓宇,吕文栋,陈晓新,蔡雅琼,
申请(专利权)人:中国建设银行股份有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。