公有云降频风险识别方法技术

技术编号:39835560 阅读:6 留言:0更新日期:2023-12-29 16:19
本公开实施例提供一种公有云降频风险识别方法

【技术实现步骤摘要】
公有云降频风险识别方法、设备及存储介质


[0001]本公开实施例涉及计算机与网络通信
,尤其涉及一种公有云降频风险识别方法

设备及存储介质


技术介绍

[0002]公有云是第三方提供商为用户提供的云端计算资源,在公有云非超售场景下,为达到资源的弹性售卖和按需使用,多租户一般会共享同宿主机上的不同物理核来运行业务,公有云提供商提供基本的多租户隔离

以及安全保障,还提供预期运行频率的
spec(
厂商虚机规格说明书
)。
[0003]公有云提供商一般通过
vcpu(
虚机进程
)
和物理核的绑定实现基本的隔离和性能保障,但是在租户业务为高负载业务时,仍然可能导致宿主机的单
socket
或整机降频,导致同
socket
或同宿主机其他租户业务性能下降,影响租户业务


技术实现思路

[0004]本公开实施例提供一种公有云降频风险识别方法

设备及存储介质,以在公有云环境中筛选出可能受到
CPU
降频的影响的风险虚拟机

[0005]第一方面,本公开实施例提供一种公有云降频风险识别方法,包括:
[0006]采集公有云环境中的宿主机中各
CPU
单元的频率波动;其中每一
CPU
单元包括多个核心;
[0007]采集所述宿主机中各租户虚拟机的
CPU
利用率;
[0008]根据所述各
CPU
单元的频率波动以及所述各租户虚拟机的
CPU
利用率,从所述各租户虚拟机中筛选出风险虚拟机

[0009]第二方面,本公开实施例提供一种公有云降频风险识别设备,包括:
[0010]CPU
频率波动采集单元,用于采集公有云环境中的宿主机中各
CPU
单元的频率波动;其中每一
CPU
单元包括多个核心;
[0011]CPU
利用率采集单元,用于采集所述宿主机中各租户虚拟机的
CPU
利用率;
[0012]识别单元,用于根据所述各
CPU
单元的频率波动以及所述各租户虚拟机的
CPU
利用率,从所述各租户虚拟机中筛选出风险虚拟机

[0013]第三方面,本公开实施例提供一种电子设备,包括:至少一个处理器和存储器;
[0014]所述存储器存储计算机执行指令;
[0015]所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如上第一方面以及第一方面各种可能的设计所述的公有云降频风险识别方法

[0016]第四方面,本公开实施例提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如上第一方面以及第一方面各种可能的设计所述的公有云降频风险识别方法

[0017]第五方面,本公开实施例提供一种计算机程序产品,包括计算机执行指令,当处理
器执行所述计算机执行指令时,实现如上第一方面以及第一方面各种可能的设计所述的公有云降频风险识别方法

[0018]本公开实施例提供的公有云降频风险识别方法

设备及存储介质,通过采集公有云环境中的宿主机中各
CPU
单元的频率波动;采集所述宿主机中各租户虚拟机的
CPU
利用率;根据所述各
CPU
单元的频率波动以及所述各租户虚拟机的
CPU
利用率,从所述各租户虚拟机中筛选出风险虚拟机

通过对公有云环境中的宿主机各
CPU
单元的频率波动和各租户虚拟机的
CPU
利用率的检测,可以快速准确的筛选出可能受到
CPU
降频的影响的风险虚拟机,进而可为风险虚拟机的迁移和调度提供依据,减小降频带来的影响,避免公有云各租户间负载干扰,保障公有云租户虚拟机的稳定性,保障公有云的服务级别协议
SLA。
附图说明
[0019]为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图

[0020]图1为现有技术中一种公有云降频风险识别的示例图;
[0021]图2为本公开一实施例提供的公有云降频风险识别方法的架构示意图;
[0022]图3为本公开一实施例提供的公有云降频风险识别方法流程示意图;
[0023]图4为本公开另一实施例提供的公有云降频风险识别方法流程示意图;
[0024]图5为本公开一实施例提供的公有云降频风险识别设备的结构框图;
[0025]图6为本公开一实施例提供的电子设备的硬件结构示意图

具体实施方式
[0026]为使本公开实施例的目的

技术方案和优点更加清楚,下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚

完整地描述,显然,所描述的实施例是本公开一部分实施例,而不是全部的实施例

基于本公开中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围

[0027]公有云提供商一般通过
vcpu(
虚机进程
)
和物理核的绑定实现基本的隔离和性能保障,但是在租户业务为高负载业务时,仍然可能导致宿主机的单
socket(CPU
插槽
)
或整机降频,导致同
socket
或同宿主机其他租户业务性能下降,影响租户业务
(
例如实时任务的时延上升

计算业务的性能不达预期
)。
[0028]其具体原因为,不同租户虚拟机共存于一个物理
socket

numa(
非一致内存访问架构,在一些情况中
numa
等同于
socket)
,本质还是共享物理
socket
上的供电,在有一定核数运行高负载业务,例如:渲染
、AVX/AMX
重负载指令下,单颗
CPU(socket)
在一定时间运行下温度升高,会达到
CPU
厂商预设的
TDP(Thermal Design Power
,热量设计功耗,和具体
CPU
型号相关
)
,触发硬件执本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种公有云降频风险识别方法,其特征在于,包括:采集公有云环境中的宿主机中各
CPU
单元的频率波动;其中每一
CPU
单元包括多个核心;采集所述宿主机中各租户虚拟机的
CPU
利用率;根据所述各
CPU
单元的频率波动以及所述各租户虚拟机的
CPU
利用率,从所述各租户虚拟机中筛选出风险虚拟机
。2.
根据权利要求1所述的方法,其特征在于,所述根据所述各
CPU
单元的频率波动以及所述各租户虚拟机的
CPU
利用率,从所述各租户虚拟机中筛选风险虚拟机,包括:若任意目标
CPU
单元降频的频率波动超过预设波动阈值,则从所述各租户虚拟机中筛选
CPU
利用率大于预设
CPU
利用率阈值的租户虚拟机,确定为所述风险虚拟机
。3.
根据权利要求1所述的方法,其特征在于,在筛选出风险虚拟机后,还包括:根据预设检测规则,检测所述风险虚拟机是否为受到降频影响的目标虚拟机
。4.
根据权利要求3所述的方法,其特征在于,所述根据预设检测规则,检测所述风险虚拟机是否为受到降频影响的目标虚拟机,包括:判断所述风险虚拟机对应的租户是否属于预设租户集合,若属于所述预设租户集合,则确定所述风险虚拟机不是受到降频影响的目标虚拟机;和
/
或判断所述风险虚拟机是否独占所述宿主机,若独占所述宿主机,则确定所述风险虚拟机不是受到降频影响的目标虚拟机;和
/
或根据所述风险虚拟机使用所述目标
CPU
单元的核心数,检测所述风险虚拟机是否为受到降频影响的目标虚拟机
。5.
根据权利要求4所述的方法,其特征在于,所述根据所述风险虚拟机使用所述目标
CPU
单元的核心数,检测所述风险虚拟机是否为受到降频影响的目标虚拟机,包括:若所述风险虚拟机使用所述目标
CPU
单元的核心数不为
0、
且小于预设核心数阈值,则确定所述风险虚拟机为受到降频影响的目标虚拟机;或者将使用所述目标
CPU
单元的核心数不为0的风险虚拟机按照使用所述目标
CPU
单元的核心数进行排序,将排序中使用所述目标
CPU
单元的核心数最少的一个或多个风险虚拟机确定为受到降频影响的目标虚拟机;或者若所述风险虚拟机使用所述目标
CPU
单元的核心为0,则确定所述风险虚拟机不是受到降频影响的目标虚拟机
。6.
根据权利要求3‑5任一项所述的方法,其特征在于,在确定所述风险虚拟机为受到降频影响的目标虚拟机后,还包括:对所述目标虚拟机进行迁移
。7.
根据权利要求6所述的方法,其特征在于,所述对所述目标虚拟机进行迁移,包括:将使用所述目标
CPU
单元的核心数不为
0、
且使用所述目标
CPU
单元的核心数最少的一个或多个目标虚拟机进行迁移
。8.
根据权利要求6所述的方法,其特征在于,所述对所述目标虚拟机进行迁移,包括:判断所述目标虚拟机是否允许被迁移;若确定所述目标虚拟机允许被迁移,则对所述目标虚拟机进行迁移
。9.
根据权利要求8所述的方法,其特征在于,所述判断所述目标虚拟机是否允许被迁
移,包括:若所述目标虚拟机预设有...

【专利技术属性】
技术研发人员:杜鹏程
申请(专利权)人:北京火山引擎科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1