【技术实现步骤摘要】
模型推理任务的处理方法、装置、计算机设备及介质
[0001]本公开涉及云计算
,具体涉及一种模型推理任务的处理方法
、
装置
、
设备及介质
。
技术介绍
[0002]随着机器学习模型的规模持续增大,模型参数已经从早期的数百万参数增加到了现在的百亿级参数,未来还会继续增长,这对模型训练和推理的计算资源提出了更高的要求
。
[0003]相关技术中,用户在提交大模型服务任务之后,集群部署相应的任务实例,任务实例从本地模型仓库中加载预先缓存的模型文件,以实现模型推理服务
。
[0004]如果用户有大量的模型推理请求时,由于大模型服务所需资源量大,则容易出现资源紧张,集群内计算资源无法满足,会对服务造成严重的性能影响
。
技术实现思路
[0005]本公开提供了一种模型推理任务的处理方法
、
装置
、
设备及存储介质
。
[0006]根据本公开的第一方面,提供了一种模型推理任务的处理方法,包括:
[0007]响应于接收到模型推理任务,获取所述模型推理任务所需用的模型文件;
[0008]在本地创建服务实例,并基于所述服务实例和所述模型文件执行所述模型推理任务;
[0009]监测所述模型推理任务对应的实例指标;
[0010]在所述实例指标满足预设条件的情况下,调整使用的弹性容器实例
ECI
的数量
。
[0011]根据本
【技术保护点】
【技术特征摘要】
1.
一种模型推理任务的处理方法,其特征在于,包括:响应于接收到模型推理任务,获取所述模型推理任务所需用的模型文件;在本地创建服务实例,并基于所述服务实例和所述模型文件执行所述模型推理任务;监测所述模型推理任务对应的实例指标;在所述实例指标满足预设条件的情况下,调整使用的弹性容器实例
ECI
的数量
。2.
根据权利要求1所述的方法,其特征在于,所述在所述实例指标满足预设条件的情况下,调整使用的弹性容器实例
ECI
的数量,包括:确定所述实例指标对应的指标值;在所述指标值大于第一阈值的情况下,确定所述指标值和所述第一阈值之间的第一偏差量,以及与所述第一偏差量关联的增加量;根据所述增加量,利用弹性资源池中的资源创建对应数量的所述弹性容器实例
ECI。3.
根据权利要求2所述的方法,其特征在于,在所述确定所述实例指标对应的指标值之后,还包括:在所述指标值小于第二阈值的情况下,确定所述指标值和所述第二阈值之间的第二偏差量,以及与所述第二偏差量关联的减少量,其中,所述第二阈值小于所述第一阈值;基于所述减少量,减少对应数量的弹性容器实例
ECI。4.
根据权利要求1所述的方法,其特征在于,还包括:接收对所述模型推理任务的实例数量调整请求;根据所述调整请求中包含的调整规则,调整使用的所述弹性容器实例
ECI
的数量
。5.
根据权利要求1所述的方法,其特征在于,在所述获取所述模型推理任务所需用的模型文件之后,还包括:响应于检测到计算集群处于故障状态,或者检测到所述计算集群处于资源不足状态,创建与所述模型文件对应的弹性容器实例
ECI
;基于所述弹性容器实例
ECI
和所述模型文件,执行所述模型推理任务
。6.
根据权利要求3所述的方法,其特征在于,在所述利用弹性资源池中的资源创建对应数量的弹性容器实例
ECI
之后,还包括:启动所述弹性容器实例
ECI
,并基于指定挂载路径,从云盘中获取所述弹性容器实例关联的模型文件,所述云盘具有自动存储性能级别
AutoPL。7.
根据权利要求1所述的方法,其特征在于,还包括:响应于任一弹性容器实例为待创建状态,确定所述任一弹性容器实例匹配的目标模型文件;查询本地数据库中的...
【专利技术属性】
技术研发人员:何逸凡,昌易,
申请(专利权)人:北京小米移动软件有限公司北京小米松果电子有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。