支持多模型多芯片的推理服务器的部署方法、系统及电子设备技术方案

技术编号:32118859 阅读:29 留言:0更新日期:2022-01-29 19:04
本发明专利技术属于计算机技术领域,公开了一种支持多模型多芯片的推理服务器的部署方法及系统,该方法包括:自定义TVM编译器的后端服务插件,其中,所述后端服务插件的文件格式满足推理服务器后端接入所规定的文件格式;将所述后端服务插件接入推理服务器;所述推理服务器接收客户端的推理请求,并通过所述后端服务插件调用所述TVM编译器在指定的加速器芯片进行推理运算。本发明专利技术实现了在同一套推理框架中基于不同类型模型对不同加速器芯片的快速部署。不同类型模型对不同加速器芯片的快速部署。不同类型模型对不同加速器芯片的快速部署。

【技术实现步骤摘要】
支持多模型多芯片的推理服务器的部署方法、系统及电子设备


[0001]本专利技术属于计算机
,尤其涉及一种支持多模型多芯片的推理服务器的部署方法、系统、存储介质及电子设备。

技术介绍

[0002]随着人工智能技术的兴起,各种模型达到实用化的要求,如何进行生产环境的部署就成为困扰技术人员的问题。为方便部署模型,市面上出现了诸如tensorflow serving,triton等推理服务器。这些推理服务器的出现,方便了在生产环境进行模型的部署,但是这些推理服务器存在两个很大的缺陷:1.只能支持十分有限的模型类型;2.只能支持有限加速处理器,通常是CPU和GPU,而针对其它加速处理器的部署则不那么容易,比如Tensorflow serving推理服务器只支持CPU、GPU、TPU,Triton推理服务器只能支持CPU,GPU。
[0003]如何在一套推理服务器中,实现支持不同类型的模型在不同加速器芯片进行推理的快速部署,是目前需要解决的技术问题。

技术实现思路

[0004]本专利技术的目的是,提供一种推理服务器的部署方法及本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种支持多模型多芯片的推理服务器的部署方法,其特征在于,自定义TVM编译器的后端服务插件,其中,所述后端服务插件的文件格式满足推理服务器后端接入所规定的文件格式;将所述后端服务插件接入推理服务器;所述推理服务器接收客户端的推理请求,并通过所述后端服务插件调用所述TVM编译器在指定的加速器芯片进行推理运算。2.如权利要求1所述的部署方法,其特征在于,调用所述TVM编译器在指定的加速器芯片进行推理运算包括:所述TVM编译器读取需要部署的模型,并对所述模型进行编译优化,生成对应加速器芯片的可执行文件;已接入所述推理服务器的所述后端服务插件在启动推理服务器时,加载所述TVM编译器运行,并读取所述可执行文件;所述推理服务器将接收的客户端的推理请求调度给所述后端服务插件;所述后端服务插件调用所述TVM编译器运行时执行推理;所述TVM编译器在指定的加速器芯片完成推理运算;返回运算结果给所述客户端。3.如权利要求2所述的部署方法,其特征在于,将所述后端服务插件接入所述推理服务器包括:按照所述推理服务器后端接入所需的文件格式,定义接入推理服务器的不同接口函数,生成对应名称的库文件;将生成的所述库文件放入到所述推理服务器中并按照目录保存,等待所述推理服务器调用。4.如权利要求3所述的部署方法,其特征在于,所述推理服务器调用接口函数包括:所述推理服务器启动时,通过所述目录查询找到对应的库文件,依次调用所述库文件中保存的初始化所述TVM编译器的运行时库的接口函数,以及加载所述TVM编译器的可执行模型的接口函数,;所述推理服务器根据接收到的来自客户端的所述推理...

【专利技术属性】
技术研发人员:李柏宏
申请(专利权)人:苏州浪潮智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1