跨机房数据处理方法、设备、存储介质及程序产品技术

技术编号:36194399 阅读:19 留言:0更新日期:2022-12-31 21:17
本公开实施例提供一种跨机房数据处理方法、设备、存储介质及程序产品,通过分析当前机房中周期性的离线数据访问任务的任务信息确定待访问数据的目标存活时间及最早使用时间;根据待访问数据的目标存活时间及当前机房的第一缓存空间的剩余容量生成数据迁移任务,并将最早使用时间确定为数据迁移任务的执行期限;根据执行期限执行数据迁移任务跨机房读取待迁移数据,并作为副本缓存在当前机房的第一缓存空间,供当前机房后续数据访问任务在本地访问。基于待访问数据的目标存活时间及最早使用时间生成数据迁移任务,提前进行副本缓存,使离线数据访问任务不需跨机房读取数据,提高任务执行速度,适用于任何存储场景,且避免副本占用过多的缓存空间。本占用过多的缓存空间。本占用过多的缓存空间。

【技术实现步骤摘要】
跨机房数据处理方法、设备、存储介质及程序产品


[0001]本公开实施例涉及计算机与网络通信
,尤其涉及一种跨机房数据处理方法、设备、存储介质及程序产品。

技术介绍

[0002]业务的计算逻辑与数据之间存在错综复杂的依赖关系,难以完全解耦,究其原因在于数据生产端与消费端之间存在割裂,消费端无法准确获知数据的存储策略,导致跨机房数据访问不可避免。
[0003]对于跨机房数据读写,特别是大数据离线场景下,当计算任务需要跨机房传输数据时,不仅占用大量带宽,而且会导致任务运行时间大大增加。

技术实现思路

[0004]本公开实施例提供一种跨机房数据处理方法、设备、存储介质及程序产品,以提高跨机房数据访问任务的执行速度。
[0005]第一方面,本公开实施例提供一种跨机房数据处理方法,包括:
[0006]获取当前机房中周期性的离线数据访问任务的任务信息;
[0007]根据所述任务信息,确定待访问数据的目标存活时间以及最早使用时间;
[0008]根据待访问数据的目标存活时间、以及当前机房的第一缓存空间的剩余容量,确定所述待访问数据中的待迁移数据以及待迁移数据的目标存活时间,生成数据迁移任务,并将所述最早使用时间确定为所述数据迁移任务的执行期限;
[0009]根据所述执行期限,执行所述数据迁移任务,从所述待访问数据所在机房进行跨机房读取所述待迁移数据;
[0010]将已读取的所述待迁移数据作为副本缓存在所述当前机房的第一缓存空间中,以供所述当前机房后续数据访问任务在本地访问所述第一缓存空间中的副本。
[0011]第二方面,本公开实施例提供一种跨机房数据处理设备,包括:
[0012]获取单元,用于获取当前机房中周期性的离线数据访问任务的任务信息;
[0013]分析单元,用于根据所述任务信息,确定待访问数据的目标存活时间以及最早使用时间;根据待访问数据的目标存活时间、以及当前机房的第一缓存空间的剩余容量,确定所述待访问数据中的待迁移数据以及待迁移数据的目标存活时间,生成数据迁移任务,并将所述最早使用时间确定为所述数据迁移任务的执行期限;
[0014]数据迁移单元,用于根据所述执行期限,执行所述数据迁移任务,从所述待访问数据所在机房进行跨机房读取所述待迁移数据;
[0015]副本缓存单元,用于将已读取的所述待迁移数据作为副本缓存在所述当前机房的第一缓存空间中,以供所述当前机房后续数据访问任务在本地访问所述第一缓存空间中的副本。
[0016]第三方面,本公开实施例提供一种电子设备,包括:至少一个处理器和存储器;
[0017]所述存储器存储计算机执行指令;
[0018]所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如上第一方面以及第一方面各种可能的设计所述的跨机房数据处理方法。
[0019]第四方面,本公开实施例提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如上第一方面以及第一方面各种可能的设计所述的跨机房数据处理方法。
[0020]第五方面,本公开实施例提供一种计算机程序产品,包括计算机执行指令,当处理器执行所述计算机执行指令时,实现如上第一方面以及第一方面各种可能的设计所述的跨机房数据处理方法。
[0021]本公开实施例提供的跨机房数据处理方法、设备、存储介质及程序产品,通过获取当前机房中周期性的离线数据访问任务的任务信息;根据任务信息,确定待访问数据的目标存活时间以及最早使用时间;根据待访问数据的目标存活时间、以及当前机房的第一缓存空间的剩余容量,确定待访问数据中的待迁移数据以及待迁移数据的目标存活时间,生成数据迁移任务,并将最早使用时间确定为数据迁移任务的执行期限;根据执行期限,执行数据迁移任务,从待访问数据所在机房进行跨机房读取待迁移数据;将已读取的待迁移数据作为副本缓存在当前机房的第一缓存空间中,以供当前机房后续数据访问任务在本地访问第一缓存空间中的副本。基于待访问数据的目标存活时间以及最早使用时间生成数据迁移任务,提前进行跨机房数据副本缓存,使得离线数据访问任务不需要跨机房读取数据,可有效的提高离线数据访问任务的执行速度,可适用于任何存储场景,并且以缓存空间作为约束,可避免副本占用过多的缓存空间。
附图说明
[0022]为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0023]图1为现有技术中一种跨机房数据处理的示例图;
[0024]图2为本公开一实施例提供的跨机房数据处理方法流程示意图;
[0025]图3为本公开另一实施例提供的跨机房数据处理方法流程示意图;
[0026]图4为本公开另一实施例提供的跨机房数据处理方法流程示意图;
[0027]图5为本公开另一实施例提供的跨机房数据处理方法流程示意图;
[0028]图6为本公开一实施例提供的跨机房数据处理设备的结构框图;
[0029]图7为本公开一实施例提供的电子设备的硬件结构示意图。
具体实施方式
[0030]为使本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本公开一部分实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
[0031]由于业务的计算逻辑与数据之间存在错综复杂的依赖关系,难以完全解耦,究其原因在于数据生产端与消费端之间存在割裂,消费端无法准确获知数据的存储策略,导致跨机房数据访问不可避免。
[0032]对于跨机房数据读写,特别是大数据离线场景下,当计算任务需要跨机房传输数据时,不仅占用大量带宽,而且会导致任务运行时间大大增加。
[0033]现有技术中通常进行垂直化部署,也即将计算和存储部署在同一机房,避免跨机房数据访问。但是限制了资源共享的粒度,当机房容量达到上限时,扩容极为困难;计算逻辑与数据之间的依赖关系复杂,并非所有业务都能完全垂直化部署。
[0034]此外,一些技术中采用以存储换网络,在本地机房对跨机房数据缓存只读副本,减少重复跨机房访问,从而以磁盘空间换取跨机房带宽资源,但其支持场景有限,针对数据仓库等结构化数据场景,扩展到其他场景需要较大的改造;并且仅适用于追加写,缓存副本不可更新,一旦副本被修改会导致数据不一致性;并且仅具备计算视角,从计算角度进行优化,利用存储空间换网络带宽,可能导致数据搬迁过程中的网络突发流量,对线上作业的运行产生影响。
[0035]针对上述至少一个技术问题,本公开提供一种跨机房数据本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种跨机房数据处理方法,其特征在于,包括:获取当前机房中周期性的离线数据访问任务的任务信息;根据所述任务信息,确定待访问数据的目标存活时间以及最早使用时间;根据待访问数据的目标存活时间、以及当前机房的第一缓存空间的剩余容量,确定所述待访问数据中的待迁移数据以及待迁移数据的目标存活时间,生成数据迁移任务,并将所述最早使用时间确定为所述数据迁移任务的执行期限;根据所述执行期限执行所述数据迁移任务,从所述待访问数据所在机房进行跨机房读取所述待迁移数据;将已读取的所述待迁移数据作为副本缓存在所述当前机房的第一缓存空间中,以供所述当前机房后续数据访问任务在本地访问所述第一缓存空间中的副本。2.根据权利要求1所述的方法,其特征在于,所述当前机房中需要访问所述待访问数据的离线数据访问任务存在多个;所述根据所述任务信息,确定待访问数据的目标存活时间以及最早使用时间,包括:根据所述当前机房中多个周期性的离线数据访问任务的任务信息,确定每个离线数据访问任务对所述待访问数据的使用周期,根据每个离线数据访问任务对所述待访问数据的使用周期、以及所述待访问数据的跨机房读写比,确定所述待访问数据的目标存活时间;和/或根据所述当前机房中多个周期性的离线数据访问任务的任务信息,确定在一个周期中每个离线数据访问任务访问所述待访问数据的时间,将其中最早访问所述待访问数据的时间确定为所述待访问数据的最早使用时间。3.根据权利要求2所述的方法,其特征在于,所述根据每个离线数据访问任务对所述待访问数据的使用周期确定所述待访问数据的目标存活时间,包括:将各离线数据访问任务对所述待访问数据的使用周期中最长的使用周期确定为所述待访问数据的目标存活时间;或者根据各离线数据访问任务对所述待访问数据的使用周期以及跨机房读写比,确定数据量满足所述第一缓存空间的剩余容量的使用周期,确定为所述待访问数据的目标存活时间。4.根据权利要求1

3任一项所述的方法,其特征在于,所述根据所述执行期限,执行所述数据迁移任务,包括:根据所述执行期限的前后顺序对各数据迁移任务进行排序,根据排序由前至后执行各数据迁移任务;其中,对于任一数据迁移任务,若当前时间已超过其对应的执行期限,则跳过该数据迁移任务。5.根据权利要求1

3任一项所述的方法,其特征在于,所述执行所述数据迁移任务,包括:对所述数据迁移任务分配低优先级的带宽,其中所述低优先级的带宽优先级低于在线任务的带宽;在检测到在线任务的带宽不足时,限制所述数据迁移任务使用所述低优先级的带宽。6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
对于当前机房中的实时数据访问任务...

【专利技术属性】
技术研发人员:张鑫春李亚坤郭俊宋浩祥章玮冯玮
申请(专利权)人:北京火山引擎科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1