一种AI调度实现方法及装置制造方法及图纸

技术编号:38464581 阅读:15 留言:0更新日期:2023-08-11 14:41
本发明专利技术涉及服务器管理监控领域,具体提供了一种AI调度实现方法及装置,首先利用redission分布式锁完成调度服务的选主机制以及分布式服务部署,当一个服务抢到主机锁后,便成为主服务,其它服务为从服务;一旦当前主服务下线后,从服务便会重新抢占主机锁;依靠监控服务平台提供的接口,获取到服务器的各项参数,利用配置的权重比或计算性能分数的算法,计算出服务的性能分数,作为任务调度的参考。与现有技术相比,本发明专利技术可以根据服务器性能动态进行AI任务的调度,是一种更加适合人工智能集群项目的负载均衡服务。智能集群项目的负载均衡服务。智能集群项目的负载均衡服务。

【技术实现步骤摘要】
一种AI调度实现方法及装置


[0001]本专利技术涉及服务器管理监控领域,具体提供一种AI调度实现方法及装置。

技术介绍

[0002]目前的人工智能项目中,大多数是需要依靠服务器算力来进行模型的优化以及各种任务的计算。因此往往配置多台服务器已提供更高算力来支持项目的稳定性。但是目前的负载均衡组件,如nacos、nginx等都无法动态根据服务器负载的进行算力的调度。

技术实现思路

[0003]本专利技术是针对上述现有技术的不足,提供一种实用性强的AI调度实现方法。
[0004]本专利技术进一步的技术任务是提供一种设计合理,安全适用的AI调度实现装置。
[0005]本专利技术解决其技术问题所采用的技术方案是:
[0006]一种AI调度实现方法,首先利用redission分布式锁完成调度服务的选主机制以及分布式服务部署,当一个服务抢到主机锁后,便成为主服务,其它服务为从服务;一旦当前主服务下线后,从服务便会重新抢占主机锁;
[0007]依靠监控服务平台提供的接口,获取到服务器的各项参数,利用配置的权重比或计算性能分数的算法,计算出服务的性能分数,作为任务调度的参考。
[0008]进一步的,首先创建Springboot项目引入redission相关的依赖以及配置,创建一个微服务守护进程用来抢占主机锁,主机锁是一个redis提供的一个hash类型的key。
[0009]进一步的,如果服务抢占到锁,守护进程便会阻塞不会在参与枪锁操作并将自己的信息更新到redis中,同时会将没有抢占到锁的服务即从服务的信息也更新到redis中。
[0010]进一步的,将从服务的信息也更新到redis中后,进行心跳检测,随时更新服务的状态;
[0011]没有抢占到便轮询锁的状态,服务关闭时释放抢占到锁并结束守护进程。
[0012]进一步的,一旦主服务异常停止,redission的分布式锁会在一段时间后自动解锁,从服务便可争取到主机锁,升级为主节点,继续管理整个集群的工作。
[0013]进一步的,主节点服务启动后会开启定时任务调用监控服务提供的接口,获取各个服务器的详细信息,并将详细信息更新到redis中,同时根据提供的信息和配置的权重比或算法计算出目前最优的服务器,最后将计算出的最优服务器ip存储到redis中,供任务调度提供支持。
[0014]进一步的,主服务还会读取数据库中的各项AI任务,根据服务器性能对任务进行合理的分配;
[0015]当一个AI任务要运行,调度服务首先会从redis中读取性能最优的服务器ip,将此次任务调度给服务器,并将调度信息保存到redis中,并持续监控任务的运行状态,如果任务出现异常会从redis中删除调度信息,从新进行此异常任务的调度。
[0016]一种AI调度实现装置,包括:至少一个存储器和至少一个处理器;
[0017]所述至少一个存储器,用于存储机器可读程序;
[0018]所述至少一个处理器,用于调用所述机器可读程序,执行一种AI调度实现方法。
[0019]本专利技术的一种AI调度实现方法及装置和现有技术相比,具有以下突出的有益效果:
[0020]本专利技术可以根据服务器性能动态进行AI任务的调度,是一种更加适合人工智能集群项目的负载均衡服务。
附图说明
[0021]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0022]附图1是一种AI调度实现方法的流程示意图。
具体实施方式
[0023]为了使本
的人员更好的理解本专利技术的方案,下面结合具体的实施方式对本专利技术作进一步的详细说明。显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例都属于本专利技术保护的范围。
[0024]下面给出一个最佳实施例:
[0025]如图1所示,本实施例中的一种AI调度实现方法,首先利用redission分布式锁完成调度服务的选主机制以及分布式服务部署,当一个服务抢到主机锁后,便成为主服务,其它服务为从服务;一旦当前主服务下线后,从服务便会重新抢占主机锁;
[0026]依靠监控服务平台提供的接口,获取到服务器的各项参数,利用配置的权重比或计算性能分数的算法,计算出服务的性能分数,作为任务调度的参考。
[0027]具体的方法为:
[0028]首先创建Springboot项目引入redission相关的依赖以及配置。
[0029]创建一个微服务守护进程用来抢占主机锁,主机锁是一个redis提供的一个hash类型的key。如果服务抢占到锁,守护进程便会阻塞不会在参与枪锁操作并将自己的信息更新到redis中,同时会将没有抢占到锁的服务即从服务的信息也更新到redis中。并对它们进行心跳检测,随时更新服务的状态。没有抢占到便轮询锁的状态。
[0030]服务关闭时释放抢占到锁并结束守护进程。一旦主服务异常停止,redission的分布式锁会在一段时间后自动解锁,其它从服务便可争取到主机锁,升级为主节点,继续管理整个集群的工作。
[0031]主节点服务启动后会开启定时任务调用监控服务提供的接口,获取各个服务器的详细信息,如cpu使用率、内存使用率、板卡使用率等等。
[0032]并将这些信息更新到redis中,同时根据这些提供的信息和配置的权重比或算法计算出目前最优的服务器,例如拉流服务需要以来cpu性能和网络等性能,便可将这两项的计算权重加大,AI计算任务依赖显卡,可将显卡的使用率、温度等提高计算权重。最后将计
算出的最优服务器ip存储到redis中,供任务调度提供支持。
[0033]除此之外,主服务还会读取数据库中的各项AI任务,根据服务器性能对任务进行合理的分配。即AI任务调度管理。
[0034]当一个AI任务要运行,调度服务首先会从redis中读取性能最优的服务器ip,将此次任务调度给服务器。并将调度信息保存到redis中,并持续监控任务的运行状态,如果任务出现异常会从redis中删除调度信息,从新进行此异常任务的调度。
[0035]基于上述方法,本实施例中的一种AI调度实现装置,包括:至少一个存储器和至少一个处理器;
[0036]所述至少一个存储器,用于存储机器可读程序;
[0037]所述至少一个处理器,用于调用所述机器可读程序,执行一种AI调度实现方法。
[0038]上述具体的实施方式仅是本专利技术具体的个案,本专利技术的专利保护范围包括但不限于上述具体的实施方式,任何符合本专利技术的一种AI调度实现方法及装置权利要求书的且任何所述
普通技术人员对其做出的适当变化或者替换,皆应落入本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种AI调度实现方法,其特征在于,首先利用redission分布式锁完成调度服务的选主机制以及分布式服务部署,当一个服务抢到主机锁后,便成为主服务,其它服务为从服务;一旦当前主服务下线后,从服务便会重新抢占主机锁;依靠监控服务平台提供的接口,获取到服务器的各项参数,利用配置的权重比或计算性能分数的算法,计算出服务的性能分数,作为任务调度的参考。2.根据权利要求1所述的一种AI调度实现方法,其特征在于,首先创建Springboot项目引入redission相关的依赖以及配置,创建一个微服务守护进程用来抢占主机锁,主机锁是一个redis提供的一个hash类型的key。3.根据权利要求1或2所述的一种AI调度实现方法,其特征在于,如果服务抢占到锁,守护进程便会阻塞不会在参与枪锁操作并将自己的信息更新到redis中,同时会将没有抢占到锁的服务即从服务的信息也更新到redis中。4.根据权利要求3所述的一种AI调度实现方法,其特征在于,将从服务的信息也更新到redis中后,进行心跳检测,随时更新服务的状态;没有抢占到便轮询锁的状态,服务关闭时释放抢占到锁并结束守护进程。5.根据权利要求4所述的一种AI调度实现方法...

【专利技术属性】
技术研发人员:牛毅恒张俊琪
申请(专利权)人:浪潮软件集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1