模型推理任务的处理方法技术

技术编号:39713561 阅读:7 留言:0更新日期:2023-12-17 23:22
本公开提供了一种模型推理任务的处理方法

【技术实现步骤摘要】
模型推理任务的处理方法、装置、计算机设备及介质


[0001]本公开涉及云计算
,具体涉及一种模型推理任务的处理方法

装置

设备及介质


技术介绍

[0002]随着机器学习模型的规模持续增大,模型参数已经从早期的数百万参数增加到了现在的百亿级参数,未来还会继续增长,这对模型训练和推理的计算资源提出了更高的要求

[0003]相关技术中,用户在提交大模型服务任务之后,集群部署相应的任务实例,任务实例从本地模型仓库中加载预先缓存的模型文件,以实现模型推理服务

[0004]如果用户有大量的模型推理请求时,由于大模型服务所需资源量大,则容易出现资源紧张,集群内计算资源无法满足,会对服务造成严重的性能影响


技术实现思路

[0005]本公开提供了一种模型推理任务的处理方法

装置

设备及存储介质

[0006]根据本公开的第一方面,提供了一种模型推理任务的处理方法,包括:
[0007]响应于接收到模型推理任务,获取所述模型推理任务所需用的模型文件;
[0008]在本地创建服务实例,并基于所述服务实例和所述模型文件执行所述模型推理任务;
[0009]监测所述模型推理任务对应的实例指标;
[0010]在所述实例指标满足预设条件的情况下,调整使用的弹性容器实例
ECI
的数量

[0011]根据本公开的第二方面,提供了一种模型推理任务的处理装置,包括:
[0012]获取模块,用于响应于接收到模型推理任务,获取所述模型推理任务所需用的模型文件;
[0013]执行模块,用于在本地创建服务实例,并基于所述服务实例和所述模型文件执行所述模型推理任务;
[0014]监测模块,用于监测所述模型推理任务对应的实例指标;
[0015]调整模块,用于在所述实例指标满足预设条件的情况下,调整使用的弹性容器实例
ECI
的数量

[0016]根据本公开的第三方面,提供了一种电子设备,包括:
[0017]至少一个处理器;以及
[0018]与所述至少一个处理器通信连接的存储器;其中,
[0019]所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述一方面实施例所述的方法

[0020]根据本公开第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其上存储有计算机程序,所述计算机指令用于使所述计算机执行上述一方面实施例所
述的方法

[0021]根据本公开第五方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求上述一方面实施例所述的方法

[0022]本公开的模型推理任务的处理方法

装置

设备及存储介质,至少存在以下有益效果:
[0023]本公开实施例中,首先响应于接收到模型推理任务,获取所述模型推理任务所需用的模型文件,之后在本地创建服务实例,并基于所述服务实例和所述模型文件执行所述模型推理任务,然后监测所述模型推理任务对应的实例指标,之后在所述实例指标满足预设条件的情况下,调整使用的弹性容器实例
ECI
的数量

由此,可以利用公有云中的资源来提供弹性服务的框架,根据实例指标的情况,对弹性容器实例
ECI
的数量进行调整,保证大模型服务实例能够快速加载与启动,并且可以保证服务实例的质量,以及降低成本,提高服务的弹性和可扩展性,融合了公有云和私有云的计算资源,通过混合云的模式实现负载均衡,保证服务性能

[0024]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围

本公开的其它特征将通过以下的说明书而变得容易理解

附图说明
[0025]附图用于更好地理解本方案,不构成对本公开的限定

其中:
[0026]图1为本公开第一实施例提供的模型推理任务的处理方法的流程示意图;
[0027]图2为本公开第二实施例提供的模型推理任务的处理方法的流程示意图;
[0028]图3为本公开第三实施例提供的模型推理任务的处理方法的流程示意图;
[0029]图4为本公开第四实施例提供的模型推理任务的处理方法的流程示意图;
[0030]图5为本公开一个实施例提供的模型推理任务的处理装置的结构框图;
[0031]图6是可以实现本公开实施例的电子设备图

具体实施方式
[0032]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的

因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神

同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述

[0033]为了方便对本公开的理解,下面首先对本公开涉及的
进行简单解释说明书

[0034]本公开提出的模型推理任务的处理方法可由本公开提供的模型推理任务的处理装置执行,也可以由本公开提供的计算集群执行,或者也可以是计算集群中的任一服务器

下面将以计算集群作为执行主体来描述本公开提供的模型推理任务的处理方法

[0035]下面结合参考附图对本公开提供的模型推理任务的处理方法

装置

计算机设备及存储介质进行详细描述

[0036]图1是根据本公开一实施例的一种模型推理任务的处理方法的流程示意图

[0037]如图1所示,该模型推理任务的处理方法可以包括以下步骤:
[0038]S101
,响应于接收到模型推理任务,获取模型推理任务所需用的模型文件

[0039]其中,模型推理任务可以指使用已经训练好的模型对输入数据进行预测或生成输出结果的任务

[0040]需要说明的是,用户可以向计算集群提交模型推理任务

其中,模型推理任务中可以包含有模型标识,模型标识用于帮助计算集群查找待使用的模型文件

模型推理任务中还可以包含有输入数据

模型参数等信息,在此不进行限定

[0041]其中,不同的模型推理任务用到的模型文件可能是不同的,也可能是相同的

一个模型推理任务可能用到一个模型文件,也可能用到多个模型文件,在此不进行限定
...

【技术保护点】

【技术特征摘要】
1.
一种模型推理任务的处理方法,其特征在于,包括:响应于接收到模型推理任务,获取所述模型推理任务所需用的模型文件;在本地创建服务实例,并基于所述服务实例和所述模型文件执行所述模型推理任务;监测所述模型推理任务对应的实例指标;在所述实例指标满足预设条件的情况下,调整使用的弹性容器实例
ECI
的数量
。2.
根据权利要求1所述的方法,其特征在于,所述在所述实例指标满足预设条件的情况下,调整使用的弹性容器实例
ECI
的数量,包括:确定所述实例指标对应的指标值;在所述指标值大于第一阈值的情况下,确定所述指标值和所述第一阈值之间的第一偏差量,以及与所述第一偏差量关联的增加量;根据所述增加量,利用弹性资源池中的资源创建对应数量的所述弹性容器实例
ECI。3.
根据权利要求2所述的方法,其特征在于,在所述确定所述实例指标对应的指标值之后,还包括:在所述指标值小于第二阈值的情况下,确定所述指标值和所述第二阈值之间的第二偏差量,以及与所述第二偏差量关联的减少量,其中,所述第二阈值小于所述第一阈值;基于所述减少量,减少对应数量的弹性容器实例
ECI。4.
根据权利要求1所述的方法,其特征在于,还包括:接收对所述模型推理任务的实例数量调整请求;根据所述调整请求中包含的调整规则,调整使用的所述弹性容器实例
ECI
的数量
。5.
根据权利要求1所述的方法,其特征在于,在所述获取所述模型推理任务所需用的模型文件之后,还包括:响应于检测到计算集群处于故障状态,或者检测到所述计算集群处于资源不足状态,创建与所述模型文件对应的弹性容器实例
ECI
;基于所述弹性容器实例
ECI
和所述模型文件,执行所述模型推理任务
。6.
根据权利要求3所述的方法,其特征在于,在所述利用弹性资源池中的资源创建对应数量的弹性容器实例
ECI
之后,还包括:启动所述弹性容器实例
ECI
,并基于指定挂载路径,从云盘中获取所述弹性容器实例关联的模型文件,所述云盘具有自动存储性能级别
AutoPL。7.
根据权利要求1所述的方法,其特征在于,还包括:响应于任一弹性容器实例为待创建状态,确定所述任一弹性容器实例匹配的目标模型文件;查询本地数据库中的...

【专利技术属性】
技术研发人员:何逸凡昌易
申请(专利权)人:北京小米移动软件有限公司北京小米松果电子有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1