System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于kubernetes无服务器化AI模型训练、推理方法及设备技术_技高网

一种基于kubernetes无服务器化AI模型训练、推理方法及设备技术

技术编号:41267766 阅读:4 留言:0更新日期:2024-05-11 09:23
本发明专利技术提供了一种基于kubernetes无服务器化AI模型训练、推理方法及设备,所述方法包括:Kubernetes接收原始数据,并调用自身的MLOPS控制器和容器镜像仓库中的数据处理模板对原始数据进行特征工程,得到处理后的数据集;Kubernetes调用自身的MLOPS控制器和容器镜像仓库中的模型训练模板,对处理后的数据集进行训练,得到模型参数;Kubernetes接收验证数据,并调用自身的FASS控制器和容器镜像仓库中的函数模板,对模型参数进行验证,得到验证后的模型参数,并将验证后的模型参数进行存储;Kubernetes接收测试数据,并调用自身的FASS控制器、容器镜像仓库中的函数模板和验证后的模型参数进行推理,输出推理结果,同时根据推理结果对验证后的模型参数进行更新。本发明专利技术能够解决现有技术中模型训练的问题。

【技术实现步骤摘要】

本专利技术涉及云计算与基础设施,尤其涉及一种基于kubernetes无服务器化ai模型训练、推理方法及设备。


技术介绍

1、传统机器学习、深度学习开发以及部署上线流程都是单点孤立的,没有一个系统的,可视化的,方便快捷的便于管理的方案。各种解决方案也大多都是基于传统方式进行数据特征工程,训练,模型推理。

2、目前市场上有各种各样的ai开发部署解决方案,大都是关注模型开发流程,例如基于yarn的机器学习流程,大多专注于数据存储加载,模型训练,模型部署,模型服务。流程的每个节点引入人工流程或者二次开发,从业者既需要了解ai以及机器学习流程,也要关注整个hadoop体系技术栈,另外需要维护一套额外的生产发布方案,开发和生产相对孤立,需要大量引入手动流程,无论是开发者还是数据科学家都需要关注除去ai业务本身之外的庞大技术栈和复杂流程。

3、现有ai开发部署解决方案具有如下缺点:

4、1、只关注于模型开发流程,对生产流程几乎没有作用,比如,数据自动化收集以及分布式存储,自动化特征工程,实时应用流程,数据质量,模型监控,服务hpa。

5、2、为了解决整个ai及机器学习应用程序生命周期问题,需要开发和维护复杂的胶水层,引入一系列的手动流程,这造成了开发人员和数据科学家一系列的技术孤岛。

6、3、需要关注除去ai和机器学习外的其他业务技术栈,比如大数据,linux操作系统以及虚机,gpu等各种底层运维问题,还需要关注微服务部署问题,这增大了ai从业者上线ai服务的成本。

7、4、没有系统的全流程的监控方案,无法做到全流程的可视化和可监测化,很难全自动根据服务的负载问题进行全自动伸缩,很难做到对资源的合理利用。


技术实现思路

1、为解决上述技术问题之一,本专利技术提供了一种基于kubernetes无服务器化ai模型训练、推理方法及设备,能够解决现有技术只关注于模型开发流程、引入手动流程、需要关注除去ai和机器学习外的其他业务技术栈以及没有系统的全流程的监控方案的技术问题。

2、根据本专利技术的一方面,提供了一种基于kubernetes无服务器化ai模型训练、推理方法,所述方法包括:

3、kubernetes接收原始数据,并调用自身的mlops控制器和容器镜像仓库中的数据处理模板对原始数据进行特征工程,得到处理后的数据集;

4、kubernetes调用自身的mlops控制器和容器镜像仓库中的模型训练模板,对处理后的数据集进行训练,得到模型参数;

5、kubernetes接收验证数据,并调用自身的fass控制器和容器镜像仓库中的函数模板,对模型参数进行验证,得到验证后的模型参数,并将验证后的模型参数进行存储;

6、kubernetes接收测试数据,并调用自身的fass控制器、容器镜像仓库中的函数模板和验证后的模型参数进行推理,输出推理结果,同时根据推理结果对验证后的模型参数进行更新。

7、优选的,所述方法还包括:kubernetes中的监控体系实时监控各个服务,得到对应服务的监控指标;kubernetes中的hpa根据监控指标对对应服务进行缩减或扩展。

8、优选的,kubernetes接收原始数据,并调用自身的mlops控制器和容器镜像仓库对原始数据进行特征工程,得到处理后的数据集包括:

9、kubernetes中的crd规定特征工程资源,并将特征工程资源的实例化状态提交给kubernetes中的apiserver,apiserver通过调用mlops控制器来定义kubernetes中的基础控制器中对应资源;

10、基础控制器调用容器镜像仓库中的数据处理模板,同时启动kubernetes中的容器pod;

11、kubernetes中的存储控制器接收原始数据,并将原始数据通过kubernetes中的pvc挂载在容器pod上,以完成对原始数据的特征工程,得到处理后的数据集。

12、优选的,kubernetes调用自身的mlops控制器和容器镜像仓库中的模型训练模板,对处理后的数据集进行训练,得到模型参数包括:

13、crd规定模型训练资源和gpu资源,并将模型训练资源和gpu资源的实例化状态提交给apiserver,apiserver通过调用mlops控制器来定义kubernetes中的基础控制器中对应资源,通过调用kubernetes中的gpu控制器来调用gpu资源;

14、基础控制器调用容器镜像仓库中的模型训练模板,同时启动容器pod;

15、存储控制器将处理后的数据集通过pvc挂载在容器pod上,以完成对处理后的数据集的训练,得到模型参数。

16、优选的,kubernetes接收验证数据,并调用自身的fass控制器和容器镜像仓库中的函数模板,对模型参数进行验证,得到验证后的模型参数,并将验证后的模型参数进行存储包括:

17、crd规定fass函数资源和gpu资源,并将fass函数资源和gpu资源的实例化状态提交给apiserver,apiserver通过调用fass控制器来调用容器镜像仓库中的函数模板,并通过调用gpu控制器来调用gpu资源;

18、存储控制器接收验证数据,并通过gpu资源对验证数据进行数值化;

19、启动容器pod,存储控制器将数值化的验证数据和模型参数通过pvc挂载在容器pod上,以完成对模型参数的验证,得到验证后的模型参数,并将验证后的模型参数进行存储。

20、优选的,kubernetes接收测试数据,并调用自身的fass控制器、容器镜像仓库中的函数模板和验证后的模型参数进行推理,输出推理结果,同时根据推理结果对验证后的模型参数进行更新包括:

21、crd规定fass函数资源和gpu资源,并将fass函数资源和gpu资源的实例化状态提交给apiserver,apiserver通过调用fass控制器来调用容器镜像仓库中的函数模板,并通过调用gpu控制器来调用gpu资源;

22、存储控制器接收测试数据,并通过gpu资源对验证数据进行数值化;

23、启动容器pod,存储控制器将数值化的测试数据和验证后的模型参数通过pvc挂载在容器pod上,以完成推理,输出推理结果,同时根据推理结果对验证后的模型参数进行更新。

24、优选的,原始数据存储在云磁盘、s3或分布式存储单元上。

25、根据本专利技术的另一方面,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的基于kubernetes无服务器化ai模型训练、推理程序,所述处理器执行所述基于kubernetes无服务器化ai模型训练、推理程序时实现上述任一所述方法。

26、应用本专利技术的技术方案,与现有技术相比,具有如下有益效果:

27、1、不仅做到了模型推理的系统化,还整合了整个生产流程的本文档来自技高网...

【技术保护点】

1.一种基于kubernetes无服务器化AI模型训练、推理方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述方法还包括:Kubernetes中的监控体系实时监控各个服务,得到对应服务的监控指标;Kubernetes中的HPA根据监控指标对对应服务进行缩减或扩展。

3.根据权利要求1或2所述的方法,其特征在于,Kubernetes接收原始数据,并调用自身的MLOPS控制器和容器镜像仓库对原始数据进行特征工程,得到处理后的数据集包括:

4.根据权利要求1或2所述的方法,其特征在于,Kubernetes调用自身的MLOPS控制器和容器镜像仓库中的模型训练模板,对处理后的数据集进行训练,得到模型参数包括:

5.根据权利要求1或2所述的方法,其特征在于,Kubernetes接收验证数据,并调用自身的FASS控制器和容器镜像仓库中的函数模板,对模型参数进行验证,得到验证后的模型参数,并将验证后的模型参数进行存储包括:

6.根据权利要求1或2所述的方法,其特征在于,Kubernetes接收测试数据,并调用自身的FASS控制器、容器镜像仓库中的函数模板和验证后的模型参数进行推理,输出推理结果,同时根据推理结果对验证后的模型参数进行更新包括:

7.根据权利要求1-6中任一所述的方法,其特征在于,原始数据存储在云磁盘、S3或分布式存储单元上。

8.一种计算机设备,其特征在于,包括存储器、处理器及存储在存储器上并可在处理器上运行的基于kubernetes无服务器化AI模型训练、推理程序,所述处理器执行所述基于kubernetes无服务器化AI模型训练、推理程序时实现权利要求1至7任一所述方法。

...

【技术特征摘要】

1.一种基于kubernetes无服务器化ai模型训练、推理方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述方法还包括:kubernetes中的监控体系实时监控各个服务,得到对应服务的监控指标;kubernetes中的hpa根据监控指标对对应服务进行缩减或扩展。

3.根据权利要求1或2所述的方法,其特征在于,kubernetes接收原始数据,并调用自身的mlops控制器和容器镜像仓库对原始数据进行特征工程,得到处理后的数据集包括:

4.根据权利要求1或2所述的方法,其特征在于,kubernetes调用自身的mlops控制器和容器镜像仓库中的模型训练模板,对处理后的数据集进行训练,得到模型参数包括:

5.根据权利要求1或2所述的方法,其特征在于,kubernetes接收...

【专利技术属性】
技术研发人员:唐力勇江帆丁胜昔赵中民
申请(专利权)人:航天科工集团智能科技研究院有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1