模型加载方法、推理系统、装置和计算机设备制造方法及图纸

技术编号:39284903 阅读:20 留言:0更新日期:2023-11-07 10:56
本申请涉及一种模型加载方法、推理系统、装置、计算机设备、存储介质和计算机程序产品。所述方法包括:按照预设同步规则从模型元信息库中获取动态更新的模型元信息;模型元信息包括目标模型的模型配置信息和资源部署信息,所述资源部署信息为动态配置的用于加载所述目标模型的资源信息;将所属资源划分信息和所述资源部署信息中的目标资源划分信息进行匹配,得到匹配结果;在匹配结果为匹配成功的情况下,按照所述模型配置信息中的文件存储路径,读取所述目标模型的模型文件;基于所述模型文件加载所述目标模型。提升了模型加载效率。提升了模型加载效率。提升了模型加载效率。

【技术实现步骤摘要】
模型加载方法、推理系统、装置和计算机设备


[0001]本申请涉及互联网
,特别是涉及一种模型加载方法、推理系统、装置、计算机设备、存储介质和计算机程序产品。

技术介绍

[0002]随着互联网技术的发展,机器学习模型的应用越来越广泛,比如,视频推送、图像识别、自然语言处理等。模型开发对象训练得到模型后,可将模型部署在模型推理系统上,模型推理系统可以为实际应用过程提供推理服务。
[0003]传统技术中,在将模型部署到模型推理系统时,需要先将模型放入底层容器平台内,底层容器平台经过容器镜像拉取、模型分发等流程,完成模型的加载。然而,上述流程花费时间较长,模型加载效率不高。

技术实现思路

[0004]基于此,有必要针对上述技术问题,提供一种能够提升模型加载效率的模型加载方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
[0005]一方面,本申请提供了一种模型加载方法。方法包括:
[0006]按照预设同步规则从模型元信息库中获取动态更新的模型元信息;模型元信息包括目标模型的模型配置信息和资源部署信本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种模型加载方法,其特征在于,所述方法包括:按照预设同步规则从模型元信息库中获取动态更新的模型元信息;所述模型元信息包括目标模型的模型配置信息和资源部署信息,所述资源部署信息为动态配置的用于加载所述目标模型的资源信息;将所属资源划分信息和所述资源部署信息中的目标资源划分信息进行匹配,得到匹配结果;在匹配结果为匹配成功的情况下,按照所述模型配置信息中的文件存储路径,读取所述目标模型的模型文件;基于所述模型文件加载所述目标模型。2.根据权利要求1所述的方法,其特征在于,所述按照预设同步规则从模型元信息库中获取动态更新的模型元信息,包括:按照第一预设频率向模型元信息同步系统发送信息同步请求,所述信息同步请求用于指示所述模型元信息同步系统将动态更新的模型元信息返回,所述动态更新的模型元信息为所述模型元信息同步系统按照第二预设频率,通过与模型管理服务器交互,从模型元信息库中得到的;接收所述动态更新的模型元信息。3.根据权利要求1所述的方法,其特征在于,所述资源部署信息中的目标资源划分信息包含:用于加载所述目标模型的至少一个资源分组的分组标识;所述将所属资源划分信息和所述资源部署信息中的目标资源划分信息进行匹配,得到匹配结果,包括:将所属资源划分信息和每个分组标识进行比对;在所属资源划分信息和任一个分组标识比对成功的情况下,确定匹配结果为匹配成功。4.根据权利要求1所述的方法,其特征在于,所述按照所述模型配置信息中的文件存储路径,读取所述目标模型的模型文件,包括:从所述模型配置信息提取推理引擎类型,启动与所述推理引擎类型匹配的工作进程,将所述工作进程作为所述目标模型的服务进程;通过所述服务进程,按照所述模型配置信息中的文件存储路径,读取所述目标模型的模型文件。5.根据权利要求1所述的方法,其特征在于,所述基于所述模型文件加载所述目标模型之后,还包括:接收业务服务器发送的推理子请求,所述推理子请求为所述业务服务器对终端发送的推理请求进行拆分得到的;获取所述推理子请求对应的推理结果;将所述推理结果发送至所述业务服务器,并对所述推理结果进行缓存处理。6.根据权利要求5所述的方法,其特征在于,所述获取所述推理子请求对应的推理结果,包括:根据所述推理子请求获取多个推理输入数据;基于所述推理子请求中的模型标识,从所述模型配置信息中查找目标模型对应的缓存
服务指示信息;基于所述缓存服务指示信息,确定所述多个推理输入数据各自对应的推理结果,将所述多个推理输入数据各自对应的推理结果,作为所述推理子请求对应的推理结果。7.根据权利要求6所述的方法,其特征在于,所述根据所述推理子请求获取多个推理输入数据,包括:在所述推理子请求携带多个输入数据的情况下,将所述推理子请求携带的多个输入数据均作为推理输入数据;在所述推理子请求携带多个编码压缩数据的情况下,分别对所述多个编码压缩数据进行解压缩,得到多个推理输入数据。8.根据权利要求6所述的方法,其特征在于,所述基于所述缓存服务指示信息,确定所述多个推理输入数据各自对应的推理结果,包括:在所述缓存服务指示信息指示目标模型开启缓存服务的情况下,在推理结果缓存数据库中,查找目标模型对应的多个历史推理数据,每个历史推理数据包括:历史输入数据和历史推理结果;针对每个推理输入数据,在所针对的推理输入数据和任一个历史输入数据匹配的情况下,将对应的历史推理结果作为所针对的推理输入数据的推理结果;在所针对的推理输入数据和各历史输入数据均不匹配的情况下,基于所述模型标识,查找所述目标模型的服务进程;通过所述服务进程,获取所针对的推理输入数据对应的推理结果。9.根据权利要求6所述的方法,其特征在于,所述基于所述缓存服务指示信息,确定所述多个推理输入数据各自对应的推理结果,包括:在所述缓存服务指示信息指示目标模型未开启缓存服务的情况下,则基于所述模型标识,查找所述目标模型的服务进程;通过所述目标模型的服务进程,获取所述多个推理输入数据各自对应的推理结果。1...

【专利技术属性】
技术研发人员:马世松李辉邵杰
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1