一种资源调整方法、装置、设备及可读存储介质制造方法及图纸

技术编号:39333327 阅读:41 留言:0更新日期:2023-11-12 16:08
本申请在计算机应用技术领域,公开了一种资源调整方法、装置、设备及可读存储介质,在AI服务器的CPU处于高占用状态下,通过确定异常占用CPU资源的目标部件,并对目标部件中不同的情况的部件分别进行限流、引流或限耗,从而维持CPU在高占用率的场景下稳定运行,同时增加AI服务器的抗干扰能力;可以维持服务器在各种复杂恶劣的使用环境下稳定高效的运行。即,通过对目标部件的CPU资源进行调整,能确保AI服务器在不同使用环境操作时保持高效稳定的运行状态,进一步可助力AI服务器在客户使用过程中获得更加优质的使用体验。程中获得更加优质的使用体验。程中获得更加优质的使用体验。

【技术实现步骤摘要】
一种资源调整方法、装置、设备及可读存储介质


[0001]本申请涉及计算机应用
,特别是涉及一种资源调整方法、装置、设备及可读存储介质。

技术介绍

[0002]AI(Artificial Intelligence,人工智能)服务器是最近几年增加最迅猛的服务器,凭借其AI服务器超高的性能和极高的性价比在国际市场备受客户和消费者的青睐。AI服务器需要CPU和GPU(Graphics Processing Unit,图像处理器)超高的性能作为支撑,尤其是在算力和大数据模型加持下,对于CPU性能和稳定性的要求不言而喻。同时,服务器作为信息服务器的基础载体,对于高性能服务器的性能需求尤其重要,同样极端使用环境下服务器的稳定性要求特别重要。AI服务器通常搭配一些智能化的部件,再搭配生态化的服务器,需要一些基础的设置去匹配服务器或者一些智能设备的使用,才能发挥服务器或者智能化设备更佳的性能,这样对于CPU的性能和稳定性的要求更加重要。但是,目前AI服务器在极端使用状态下,往往会出现业务不稳定,甚至宕机。
[0003]综上所述,如何有效地解决AI服务器在极端使用环境下的稳定性等问题,是目前本领域技术人员急需解决的技术问题。

技术实现思路

[0004]本申请的目的是提供一种资源调整方法、装置、设备及可读存储介质,保障AI服务器在CPU处于高占用状态,也能保持稳定的运行。
[0005]为解决上述技术问题,本申请提供如下技术方案:一种资源调整方法,包括:在AI服务器的CPU处于高功耗状态下,利用CPU使用率确定所述AI服务器的CPU占用状态;在CPU处于高占用状态下,获取部件的CPU资源占比;基于所述CPU资源占比,确定异常占用CPU资源的目标部件;对所述目标部件中高占用部件进行资源限流处理,对所述目标部件中低占用部件进行资源引流处理;在对所述高占用部件进行限流处理之后,若无法为所述低占用部件成功引流,则对所述高占用部件进行限耗处理,直到所述CPU跳出所述高占用状态。
[0006]优选地,对所述目标部件中高占用部件进行资源限流处理,对所述目标部件中低占用部件进行资源引流处理,包括:限制所述高占用部件对于CPU资源空间占用,切断分配部件资源的区间通路,将所述高占用部件圈定到额定的范围内去使用资源;将CPU内部资源引导分配给特定信息资源交换空间,并将所述特定信息资源交换空间分配需要支撑所述低占用部件的区域空间。
[0007]优选地,获取部件的CPU资源占比,包括:获取所述部件的ID信息,并基于所述ID信息确定设备ID;根据所述设备ID获取所述部件的位置;根据所述位置获取设备PCI信息;根据所述PCI信息获取所述CPU资源占比。
[0008]优选地,获取部件的CPU资源占比,包括:通过直接交互通道和/或间接交互通道,获取所述部件的CPU资源占比;其中,所述直接交互通道为带内通讯通道,所述间接交互通道为借道BIOS和服务器系统中的虚拟通道。
[0009]优选地,通过直接交互通道和/或间接交互通道,获取所述部件的CPU资源占比,包括:基于所述直接交互通道,从CPU特定寄存器中读取所述CPU资源占比。
[0010]优选地,通过直接交互通道和/或间接交互通道,获取所述部件的CPU资源占比,包括:基于所述BIOS虚拟的软件通道,通过所述BIOS内部集成CPU提供的补丁包与CPU内部资源的交互,得到所述CPU资源占比。
[0011]优选地,通过直接交互通道和/或间接交互通道,获取所述部件的CPU资源占比,包括:通过集成命令或工具,从所述服务器系统中获取所述CPU资源占比。
[0012]优选地,基于所述CPU资源占比,确定异常占用CPU资源的目标部件,包括:获取所述部件的标识信息,并基于所述标识信息从BMC数据库中调出对应的CPU内部资源占比范围;将所述CPU资源占比超出所述CPU内部资源占比范围的部件确定为所述目标部件。
[0013]优选地,对所述目标部件中高占用部件进行资源限流处理,对所述目标部件中低占用部件进行资源引流处理,包括:若所述CPU资源占比超出CPU内部资源占比范围的上限边缘,则将对应的所述目标部件确定为所述高占用部件;若所述CPU资源占比超出所述CPU内部资源占比范围的下限边缘,则将对应的所述目标部件确定为所述低占用部件;对所述高占用部件执行限流不可以引流的限制策略;协调CPU资源供所述低占用部件使用。
[0014]优选地,确定所述AI服务器的CPU处于高功耗状态的过程,包括:获取CPU功耗;若所述CPU功耗大于高功耗阈值,则确定CPU处于所述高功耗状态。
[0015]优选地,利用CPU使用率确定所述AI服务器的CPU占用状态,包括:获取所述CPU使用率;若所述CPU使用率大于高占用使用阈值,则确定所述CPU占用状态为所述高占用状态。
[0016]优选地,在AI服务器的CPU处于高功耗状态下,利用CPU使用率确定所述AI服务器
的CPU占用状态,包括:获取所述CPU功耗;若所述CPU功耗大于高功耗阈值,则确定所述AI服务器处于高功耗状态;在所述高功耗状态下,获取所述CPU使用率;在所述CPU使用率大于高占用使用阈值,则确定所述CPU占用状态为所述高占用状态。
[0017]优选地,获取所述CPU使用率,包括:获取所述AI服务器的CPU资源占比和静态CPU资源占比;叠加所述CPU资源占比和所述静态CPU资源占比,得到所述CPU使用率。
[0018]优选地,获取所述静态CPU资源占比,包括:根据设备给定的设备使用率和CPU资源占比,确定所述静态CPU资源占比。
[0019]优选地,获取所述CPU使用率,包括:通过直接交互通道和/或间接交互通道,获取所述CPU使用率。
[0020]优选地,还包括:比对不同交互通道所获取的所述CPU使用率;在比对结果不一致的情况下,则再次获取所述CPU使用率;在所述比对结果一致的情况下,在所述CPU使用率大于高占用使用阈值,则确定所述CPU占用状态为所述高占用状态;在所述比对结果不一致的数量达到校对阈值或比对时长超过时间阈值的情况下,若持续获取所述CPU功耗均大于高功耗阈值,则确定所述CPU占用状态为所述高占用状态。
[0021]优选地,还包括:对所述AI服务器进行极限测试,得到极限测试性能数据;基于所述极限测试性能数据确定高功耗阈值、高占用使用阈值和CPU内部资源占比范围中的至少一个。
[0022]优选地,所述部件包括外围部件和内部部件;其中所述内部部件包括内存、硬盘,所述外围部件包括外插卡。
[0023]优选地,在对所述高占用部件进行限流处理之后,若无法为所述低占用部件成功引流,则对所述高占用部件进行限耗处理,直到所述CPU跳出所述高占用状态,包括:在对所述高占用部件进行限流处理之后,获取当前CPU可用资源;若当前CPU可用资源无法满足为所述低占用部件引流,则对所述高占用部件进行限耗处理;在进行限耗处理后,对所述低占用部件进行引流,直到所述CPU跳出所述高占用本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种资源调整方法,其特征在于,包括:在AI服务器的CPU处于高功耗状态下,利用CPU使用率确定所述AI服务器的CPU占用状态;在CPU处于高占用状态下,获取部件的CPU资源占比;基于所述CPU资源占比,确定异常占用CPU资源的目标部件;对所述目标部件中高占用部件进行资源限流处理,对所述目标部件中低占用部件进行资源引流处理;在对所述高占用部件进行限流处理之后,若无法为所述低占用部件成功引流,则对所述高占用部件进行限耗处理,直到所述CPU跳出所述高占用状态。2.根据权利要求1所述的方法,其特征在于,对所述目标部件中高占用部件进行资源限流处理,对所述目标部件中低占用部件进行资源引流处理,包括:限制所述高占用部件对于CPU资源空间占用,切断分配部件资源的区间通路,将所述高占用部件圈定到额定的范围内去使用资源;将CPU内部资源引导分配给特定信息资源交换空间,并将所述特定信息资源交换空间分配需要支撑所述低占用部件的区域空间。3.根据权利要求1所述的方法,其特征在于,获取部件的CPU资源占比,包括:获取所述部件的ID信息,并基于所述ID信息确定设备ID;根据所述设备ID获取所述部件的位置;根据所述位置获取设备PCI信息;根据所述PCI信息获取所述CPU资源占比。4.根据权利要求1所述的方法,其特征在于,获取部件的CPU资源占比,包括:通过直接交互通道和/或间接交互通道,获取所述部件的CPU资源占比;其中,所述直接交互通道为带内通讯通道,所述间接交互通道为借道BIOS和服务器系统中的虚拟通道。5.根据权利要求4所述的方法,其特征在于,通过直接交互通道和/或间接交互通道,获取所述部件的CPU资源占比,包括:基于所述直接交互通道,从CPU特定寄存器中读取所述CPU资源占比。6.根据权利要求4所述的方法,其特征在于,通过直接交互通道和/或间接交互通道,获取所述部件的CPU资源占比,包括:基于所述BIOS虚拟的软件通道,通过所述BIOS内部集成CPU提供的补丁包与CPU内部资源的交互,得到所述CPU资源占比。7.根据权利要求4所述的方法,其特征在于,通过直接交互通道和/或间接交互通道,获取所述部件的CPU资源占比,包括:通过集成命令或工具,从所述服务器系统中获取所述CPU资源占比。8.根据权利要求1所述的方法,其特征在于,基于所述CPU资源占比,确定异常占用CPU资源的目标部件,包括:获取所述部件的标识信息,并基于所述标识信息从BMC数据库中调出对应的CPU内部资源占比范围;将所述CPU资源占比超出所述CPU内部资源占比范围的部件确定为所述目标部件。
9.根据权利要求1所述的方法,其特征在于,对所述目标部件中高占用部件进行资源限流处理,对所述目标部件中低占用部件进行资源引流处理,包括:若所述CPU资源占比超出CPU内部资源占比范围的上限边缘,则将对应的所述目标部件确定为所述高占用部件;若所述CPU资源占比超出所述CPU内部资源占比范围的下限边缘,则将对应的所述目标部件确定为所述低占用部件;对所述高占用部件执行限流不可以引流的限制策略;协调CPU资源供所述低占用部件使用。10.根据权利要求1所述的方法,其特征在于,确定所述AI服务器的CPU处于高功耗状态的过程,包括:获取CPU功耗;若所述CPU功耗大于高功耗阈值,则确定CPU处于所述高功耗状态。11.根据权利要求1所述的方法,其特征在于,利用CPU使用率确定所述AI服务器的CPU占用状态,包括:获取所述CPU使用率;若所述CPU使用率大于高占用使用阈值,则确定所述CPU占用状态为所述高占用状态。12.根据权利要求1所述的方法,其特征在于,在AI服务器的CPU处于高功耗状态下,利用CPU使用率确定所述AI服...

【专利技术属性】
技术研发人员:张国奇公维锋贡维李岩
申请(专利权)人:浪潮山东计算机科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1