数据处理方法和数据处理系统技术方案

技术编号:36167153 阅读:18 留言:0更新日期:2022-12-31 20:17
本公开涉及一种数据处理方法和数据处理系统。该数据处理系统括:多个计算组,各计算组的计算资源相互隔离。具有写入功能的计算组维护第一内存表,具有写入功能的计算组被配置为将要写入数据存储器的数据写入第一内存表,并将第一内存表中的数据写入数据存储器中与第一内存表对应的物理表。各计算组还分别维护至少一个第二内存表,各第二内存表分别对应于具有写入功能的其它计算组中的第一内存表。计算组被配置为使第二内存表与其所对应的第一内存表同步。由此,本公开的数据处理系统能够在用于各种场景或任务的计算组共享数据的情况下,方便而又灵活地实现计算资源的隔离。方便而又灵活地实现计算资源的隔离。方便而又灵活地实现计算资源的隔离。

【技术实现步骤摘要】
数据处理方法和数据处理系统


[0001]本公开涉及一种数据处理方法和系统,特别涉及海量数据的读写及分析处理。

技术介绍

[0002]随着互联网领域的持续快速发展,对海量数据的写入、读取、分析等处理的要求越来越高。
[0003]已提出一站式实时数据仓库引擎,支持海量数据实时写入、实时更新、实时分析,支持标准SQL(结构化查询语言),支持PB(1 PB = 1024 TB = 2
50
字节)级数据多维在线分析(OLAP)与即席分析(Ad Hoc),支持高并发低延迟的在线数据服务,提供离线/在线一体化全栈数仓解决方案。
[0004]然而,用户在使用数据仓库引擎同时服务于实时场景、分析场景、服务场景、离线加工场景等多个场景时,遇到了不同场景的系统计算资源负载冲突的问题,进而影响用户服务的高可用性。
[0005]因此,仍然需要一种改进的数据处理方案以处理上述技术问题。

技术实现思路

[0006]本公开要解决的一个技术问题是提供一种数据处理方法和数据处理系统,其能够在用于各种场景或任务的计算资源共享数据的情况下,方便而又灵活地实现计算资源的隔离。
[0007]根据本公开的第一个方面,提供了一种数据处理系统,包括:多个计算组,各计算组的计算资源相互隔离,其中,具有写入功能的计算组维护第一内存表,具有写入功能的计算组被配置为将要写入数据存储器的数据写入第一内存表,并将第一内存表中的数据写入数据存储器中与第一内存表对应的物理表;并且各计算组还分别维护至少一个第二内存表,各第二内存表分别对应于具有写入功能的其它计算组中的第一内存表,并且计算组被配置为使第二内存表与其所对应的第一内存表同步。
[0008]可选地,该数据处理系统还可以包括:网关,用于将任务请求分配到与任务请求对应的计算组;以及/或者元数据存储器,用于管理数据存储器中的物理表的元数据,并为多个计算组提供元数据服务,多个计算组共享元数据;以及/或者数据存储器,用于存储物理表。
[0009]可选地,元数据存储器还用于管理计算组配置信息,该系统还包括数据引擎控制器,用于响应于用户的指令或任务请求的数量,执行下述至少一项操作:创建计算组,并将计算组配置信息存储在元数据存储器中;基于元数据存储器中的计算组配置信息启用新的计算组以执行相应的数据处理;挂起计算组,使其不再执行数据处理;销毁计算组,释放分配给该计算组的计算资源;调整分配给计算组的计算资源;调整分配给计算组中各计算子组的计算资源;以及在计算组中增加或减少计算子组,其中,各计算子组的计算资源相互隔离,且分别维护第一内存表和/或第二内存表。
[0010]可选地,物理表以行列并存的方式存储数据,通过一个写任务将同一数据对应的行数据和列数据写入同一个物理表中,以保证同一数据对应的行数据写入操作和列数据写入操作的原子性。
[0011]可选地,计算组包括下述至少一种:用于离线写入的计算组;用于实时写入的计算组;用于提供数据查询服务的计算组;以及用于提供数据分析服务的计算组。
[0012]可选地,具有写入功能的计算组维护多个第一内存表,对应于数据存储器上多个物理表;各计算组中维护相应数量的第二内存表,以与具有写入功能的其它计算组中的多个第一内存表相对应。
[0013]可选地,响应于计算组不可用,在存在执行相同任务的其它计算组的情况下,将指向不可用计算组的任务请求转为指向执行相同任务的计算组,或者基于元数据存储器中不可用计算组的计算组配置信息,启用新的计算组,以执行相应任务请求。
[0014]可选地,响应于计算组内计算子组不可用,在计算组内创建新的计算子组和/或将指向不可用计算子组的任务请求切换到计算组内其它计算子组。
[0015]可选地,响应于计算组内计算节点不可用,将指向不可用计算节点的任务请求切换到计算组内其它计算节点,并在其它计算节点上重新构建不可用计算节点上原有的第一内存表和/或第二内存表。
[0016]根据本公开的第二个方面,一种数据处理方法,包括:提供多个计算组,各计算组的计算资源相互隔离;具有写入功能的计算组维护第一内存表;具有写入功能的计算组将要写入数据存储器的数据写入第一内存表,并将第一内存表中的数据写入数据存储器中与第一内存表对应的物理表;各计算组还分别维护至少一个第二内存表,各第二内存表分别对应于具有写入功能的其它计算组;以及使第二内存表与其对应的计算组中的第一内存表同步。
[0017]根据本公开的第三个方面,提供了一种计算设备,包括:处理器;以及存储器,其上存储有可执行代码,当可执行代码被处理器执行时,使处理器执行如上述第一方面所述的方法。
[0018]根据本公开的第四个方面,提供了一种计算机程序产品,包括可执行代码,当所述可执行代码被电子设备的处理器执行时,使所述处理器执行如上述第一方面所述的方法。
[0019]根据本公开的第五个方面,提供了一种非暂时性机器可读存储介质,其上存储有可执行代码,当可执行代码被电子设备的处理器执行时,使处理器执行如上述第一方面所述的方法。
[0020]由此,本公开的数据处理系统能够在用于各种场景或任务的计算组共享数据的情况下,方便而又灵活地实现计算资源的隔离。
附图说明
[0021]通过结合附图对本公开示例性实施方式进行更详细的描述,本公开的上述以及其它目的、特征和优势将变得更加明显,其中,在本公开示例性实施方式中,相同的参考标号通常代表相同部件。
[0022]图1示意性示出了根据本公开的数据处理系统架构。
[0023]图2示意性地示出了根据本公开的数据处理方法的流程图。
[0024]图3示出了根据本专利技术一实施例可用于实现上述数据处理方法的计算设备的结构示意图。
具体实施方式
[0025]下面将参照附图更详细地描述本公开的优选实施方式。虽然附图中显示了本公开的优选实施方式,然而应该理解,可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
[0026]为解决前述计算资源之间负载冲突的问题,本公开提出了一种计算资源隔离的方案,将计算资源分解为不同的计算组。
[0027]在一些情况下,计算组也可以称为“虚拟数仓(Virtual Warehouse)”。计算组之间可以共享数据和元数据,数据存储器上的物理文件可以完全复用。
[0028]计算组可以由例如数仓系统架构的一组计算节点组成。用户可以十分灵活地按需定制每个计算组的大小。对用户提供资源隔离、弹性、计算多活、高可用等核心能力。
[0029]用户可以申请多个计算组,每个计算组之间共享同一份数据。用户可以任意按需扩展计算组的数量和配置,但是只需要存储和操作一份数据。
[0030]下面参考附图详细描述根据本公开的数据处理方案。
[0031]一、计算资源隔离。
[0032]图1示意性示出了根据本本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据处理系统,包括:多个计算组,各计算组的计算资源相互隔离,其中,具有写入功能的计算组维护第一内存表,所述具有写入功能的计算组被配置为将要写入数据存储器的数据写入第一内存表,并将第一内存表中的数据写入数据存储器中与第一内存表对应的物理表;并且各计算组还分别维护至少一个第二内存表,各第二内存表分别对应于具有写入功能的其它计算组中的第一内存表,并且所述计算组被配置为使所述第二内存表与其所对应的第一内存表同步。2.根据权利要求1所述的数据处理系统,还包括:网关,用于将任务请求分配到与所述任务请求对应的计算组;以及/或者元数据存储器,用于管理数据存储器中的物理表的元数据,并为所述多个计算组提供元数据服务,所述多个计算组共享所述元数据;以及/或者数据存储器,用于存储所述物理表。3.根据权利要求2所述的数据处理系统,其中,所述元数据存储器还用于管理计算组配置信息,该系统还包括数据引擎控制器,用于响应于用户的指令或任务请求的数量,执行下述至少一项操作:创建计算组,并将计算组配置信息存储在所述元数据存储器中;基于元数据存储器中的计算组配置信息启用新的计算组以执行相应的数据处理;挂起计算组,使其不再执行数据处理;销毁计算组,释放分配给该计算组的计算资源;调整分配给计算组的计算资源;调整分配给计算组中各计算子组的计算资源;以及在计算组中增加或减少计算子组,其中,各计算子组的计算资源相互隔离,且分别维护第一内存表和/或第二内存表。4.根据权利要求1所述的数据处理系统,其中,所述物理表以行列并存的方式存储数据,通过一个写任务将同一数据对应的行数据和列数据写入同一个物理表中,以保证同一数据对应的行数据写入操作和列数据写入操作的原子性。5.根据权利要求1所述的数据处理系统,其中,所述计算组包括下述至少一种:用于离线写入的计算组;用于实时写入的计算组;用于提供数据查询服务的计算组;以及用于提供数据分析服务的计算组。6.根据权利要求1所述的数据处理系统,其中,具有写入功能的计算组维护多个第一内存表,对应于数据存储器上多个物理表;各计算组中维护相应数量的第二内存表,以与具有写入功能的其它计算组中的多个第一内存表相对应。7.根据权利要求1所述的数据处理系统,其中,响应于计算组不可用,在存在执行相同任务的其它计算组的情况下,将指向不可用计
算组的任务请求转为指向执行相同任务的计算组,或者基于元数据存储器中不可用计算组的计算组配置信息,启用新的计算组,以执行相应任务请求;并且/或者响应于计算组内计算子组不可用,在计算组内创建新的计算子组和/或将指向不可用计算子组的任务请求切换到计算组内其它计算子组;并且/或者响应于计算组内计算节点不可用,...

【专利技术属性】
技术研发人员:王奇贾扬清姜伟华蒋光然周彪朱展延杨源秦
申请(专利权)人:阿里云计算有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1