一种面向体系容灾抗毁的节点跨域调度方法、装置制造方法及图纸

技术编号:38459661 阅读:8 留言:0更新日期:2023-08-11 14:36
本申请提供了一种面向体系容灾抗毁的节点跨域调度方法、装置,其中,该方法包括:在域A服务目录检测到域A中存在异常域A节点时,向域B服务目录发送连接域B节点的请求;获取域B服务目录向域A服务目录返回的可用域B节点,以及可用域B节点的状态信息;根据可用域B节点的状态信息,以及异常域A节点的待处理任务的资源需求信息,生成决策依据向量;根据决策依据向量,采用强化学习策略从可用域B节点中选择接替异常域A节点的目标域B节点。本申请采用强化学习策略选择替换节点,能够选择适合应用场景的调度策略,提高节点选择的准确度。提高节点选择的准确度。提高节点选择的准确度。

【技术实现步骤摘要】
一种面向体系容灾抗毁的节点跨域调度方法、装置


[0001]本申请涉及计算机
,尤其是涉及一种面向体系容灾抗毁的节点跨域调度方法、装置。

技术介绍

[0002]随着计算机技术的不断进步,分布式系统和云计算已经成为现代计算机应用领域的重要组成部分,被广泛的应用于各种场景,如电子商务、社交媒体、大数据分析、人工智能等。在这些场景中,系统的可用性和性能尤为重要,因此容错、负载均衡、容灾备份、跨域传输和调度等技术成为广泛研究和应用的对象。
[0003]节点接替和调度技术是指在分布式系统中,当一个节点失效时,系统能够自动将其它节点替换为新的主节点,以保证系统的正常运行。节点跨域接替和调度技术是指系统能够跨越系统域来寻找新的接替节点。
[0004]尽管节点接替和调度技术已经得到广泛的应用,但仍然存在一些问题和挑战,节点调度通常基于固定的规则或启发式方法进行决策,决策方式难以适应复杂、动态变化的环境和需求,从而导致资源分配不均和系统性能低下的问题。

技术实现思路

[0005]有鉴于此,本申请实施例的目的在于提供一种面向体系容灾抗毁的节点跨域调度方法、装置,采用强化学习策略选择替换节点,能够选择适合应用场景的调度策略,提高节点选择的准确度。
[0006]第一方面,本申请实施例提供了一种面向体系容灾抗毁的节点跨域调度方法,域A中布置有域A节点和域A服务目录,域B中布置有域B节点和域B服务目录,所述方法包括:在所述域A服务目录检测到所述域A中存在异常域A节点时,向所述域B服务目录发送连接所述域B节点的请求;获取所述域B服务目录向所述域A服务目录返回的可用域B节点,以及所述可用域B节点的状态信息;根据所述可用域B节点的状态信息,以及所述异常域A节点的待处理任务的资源需求信息,生成决策依据向量;根据所述决策依据向量,采用强化学习策略从所述可用域B节点中选择接替所述异常域A节点的目标域B节点。
[0007]在一种可能的实施方式中,所述域A服务目录通过如下方式检测所述域A节点是否异常:若所述域A服务目录未在预设时间范围内接收到所述域A节点发送的反馈信号,则将所述域A节点确定为异常域A节点;并将待分配给所述异常域A节点的任务,或所述异常域A节点正在处理的任务确定为所述待处理任务。
[0008]在一种可能的实施方式中,所述域A中还布置有域A网关,所述域B中还布置有域B
网关;所述域A节点、所述域A服务目录,通过所述域A网关和所述域B网关,与所述域B节点、所述域B服务目录相互通信。
[0009]在一种可能的实施方式中,所述可用域B节点的状态信息包括可用CPU数量、可用GPU数量、可用内存容量、磁盘使用率、能耗、任务间数据依赖性,所述待处理任务的资源需求信息包括需要CPU数量、需要GPU数量、需要内存容量;其中,所述可用域B节点同时执行多个任务,计算每个任务的数据接收量与数据输出量的第一和值,将每个任务的第一和值的第二和值确定为所述任务间数据依赖性。
[0010]在一种可能的实施方式中,所述决策依据向量包括决策依据元素,所述根据所述可用域B节点的状态信息,以及所述异常域A节点的待处理任务的资源需求信息,生成决策依据向量,包括:对于可用CPU数量、可用GPU数量、可用内存容量中的任一可用数量,计算总量与可用数量的第一差值,将所述第一差值与所述总量的第一比值,确定为所述可用数量对应的决策依据元素;将磁盘使用率、能耗确定为对应的决策依据元素;计算各个所述可用域B节点的任务间数据依赖性的第三和值,将所述可用域B节点的任务间数据依赖性与所述第三和值的第二比值,确定为所述任务间数据依赖性对应的决策依据元素;对于需要CPU数量、需要GPU数量、需要内存容量中的任一需要数量,计算所述域A中最大数量与需要数量的第二差值,将所述第二差值与所述域A中最大数量的第三比值,确定为所述需要数量对应的决策依据元素。
[0011]在一种可能的实施方式中,所述强化学习策略设置有奖励函数R:;其中,w1、w2、w3为权重参数;r为资源利用率,所述可用域B节点的资源利用率等于所述可用域B节点的各个状态信息对应的决策依据元素的第五和值;t为时间效率,计算所述待处理任务的完成时间与预期完成时间的第四比值,所述可用域B节点的时间效率等于1与所述第四比值的第三差值;为负载均衡指标,所述可用域B节点的负载均衡指标等于所述可用域B节点的负载的标准差。
[0012]在一种可能的实施方式中,所述方法还包括:所述域A服务目录将所述待处理任务以及所述异常域A节点的历史信息发送给所述目标域B节点;所述异常域A节点接收所述目标域B节点返回的处理结果,并将所述处理结果发送给请求执行所述待处理任务的请求方。
[0013]第二方面,本申请实施例提供了一种面向体系容灾抗毁的节点跨域调度装置,域A中布置有域A节点和域A服务目录,域B中布置有域B节点和域B服务目录,所述装置包括:节点请求发送模块,用于在所述域A服务目录检测到所述域A中存在异常域A节点时,向所述域B服务目录发送连接所述域B节点的请求;状态信息获取模块,用于获取所述域B服务目录向所述域A服务目录返回的可用域B节点,以及所述可用域B节点的状态信息;
决策依据向量生成模块,用于根据所述可用域B节点的状态信息,以及所述异常域A节点的待处理任务的资源需求信息,生成决策依据向量;节点选择模块,用于根据所述决策依据向量,采用强化学习策略从所述可用域B节点中选择接替所述异常域A节点的目标域B节点。
[0014]第三方面,本申请实施例提供了一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述处理器执行所述机器可读指令,以执行第一方面所述的面向体系容灾抗毁的节点跨域调度方法的步骤。
[0015]第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行第一方面所述的面向体系容灾抗毁的节点跨域调度方法的步骤。
[0016]本申请实施例提供的一种面向体系容灾抗毁的节点跨域调度方法、装置,采用强化学习策略选择替换节点,能够选择适合应用场景的调度策略,提高节点选择的准确度。选择替换节点时,采用任务间数据依赖性的归一化值作为判断依据,通过优化数据依赖关系的调度,可以减少跨域节点数据传输的开销,从而提高整体系统性能。在强化学习策略的奖励函数中全方位考虑了资源利用率、时间效率和负载均衡指标,可以提高模型的鲁棒性和可解释性。
[0017]为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
[0018]为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种面向体系容灾抗毁的节点跨域调度方法,域A中布置有域A节点和域A服务目录,域B中布置有域B节点和域B服务目录,其特征在于,所述方法包括:在所述域A服务目录检测到所述域A中存在异常域A节点时,向所述域B服务目录发送连接所述域B节点的请求;获取所述域B服务目录向所述域A服务目录返回的可用域B节点,以及所述可用域B节点的状态信息;根据所述可用域B节点的状态信息,以及所述异常域A节点的待处理任务的资源需求信息,生成决策依据向量;根据所述决策依据向量,采用强化学习策略从所述可用域B节点中选择接替所述异常域A节点的目标域B节点。2.根据权利要求1所述的面向体系容灾抗毁的节点跨域调度方法,其特征在于,所述域A服务目录通过如下方式检测所述域A节点是否异常:若所述域A服务目录未在预设时间范围内接收到所述域A节点发送的反馈信号,则将所述域A节点确定为异常域A节点;并将待分配给所述异常域A节点的任务,或所述异常域A节点正在处理的任务确定为所述待处理任务。3.根据权利要求1所述的面向体系容灾抗毁的节点跨域调度方法,其特征在于,所述域A中还布置有域A网关,所述域B中还布置有域B网关;所述域A节点、所述域A服务目录,通过所述域A网关和所述域B网关,与所述域B节点、所述域B服务目录相互通信。4.根据权利要求1所述的面向体系容灾抗毁的节点跨域调度方法,其特征在于,所述可用域B节点的状态信息包括可用CPU数量、可用GPU数量、可用内存容量、磁盘使用率、能耗、任务间数据依赖性,所述待处理任务的资源需求信息包括需要CPU数量、需要GPU数量、需要内存容量;其中,所述可用域B节点同时执行多个任务,计算每个任务的数据接收量与数据输出量的第一和值,将每个任务的第一和值的第二和值确定为所述任务间数据依赖性。5.根据权利要求4所述的面向体系容灾抗毁的节点跨域调度方法,其特征在于,所述决策依据向量包括决策依据元素,所述根据所述可用域B节点的状态信息,以及所述异常域A节点的待处理任务的资源需求信息,生成决策依据向量,包括:对于可用CPU数量、可用GPU数量、可用内存容量中的任一可用数量,计算总量与可用数量的第一差值,将所述第一差值与所述总量的第一比值,确定为所述可用数量对应的决策依据元素;将磁盘使用率、能耗确定为对应的决策依据元素;计算各个所述可用域B节点的任务间数据依赖性的第三和值,将所述可用域B节点的任务间数据依赖性与所述第三和值的第二比值,确定为所述任务间数据...

【专利技术属性】
技术研发人员:姚锋张忠山王涛沈大勇闫俊刚王沛陈英武吕济民何磊陈宇宁陈盈果刘晓路杜永浩
申请(专利权)人:中国人民解放军国防科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1