一种基于GPU设备的模型推理加速方法及系统技术方案

技术编号:32466009 阅读:52 留言:0更新日期:2022-02-26 09:04
本发明专利技术实施例公开了一种基于GPU设备的模型推理加速方法,包括:将模型转换成ONNX格式文件;通过自定义算子将所述ONNX格式文件转换成PLAN格式文件;解析所述ONNX格式文件,生成推理服务器所需的模型配置文件;封装所述PLAN格式文件和所述模型配置文件,打包成所述推理服务器所需的格式;将打包好的文件在所述推理服务器上部署成模型服务,以在所述推理服务器上通过各个GPU设备对所述模型进行在线推理。本发明专利技术实施例还公开了一种基于GPU设备的模型推理加速系统。本发明专利技术提高了模型推理的实时性并提高了吞吐量,减小了系统的节点数量,可以降低运维难度和成本。降低运维难度和成本。降低运维难度和成本。

【技术实现步骤摘要】
一种基于GPU设备的模型推理加速方法及系统


[0001]本专利技术涉及机器学习
,具体而言,涉及一种基于GPU设备的模型推理加速方法及系统。

技术介绍

[0002]在人工智能领域中,一般是先在独立设备上利用大数据进行训练,再优化算法和模型,得到模型后把模型部署成服务向外提供服务。随着推理服务的重要性增强,如何提高模型推理的及时性、吞吐量是非常重要的。
[0003]现有技术中,一般是将模型部署在CPU设备上,但是通过CPU设备对模型进行推理时,对于图形类或非图形类的高度并行数值计算相对较慢,且内存带宽相对较低,使得模型推理的实时性相对较差,模型推理的吞吐量较低。
[0004]https://developer.nvidia.com/zh

cn/blog/speeding

up

deep

learning

inference

using

tensorflow

onnx<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于GPU设备的模型推理加速方法,其特征在于,所述方法包括:将模型转换成ONNX格式文件,其中,所述模型是经过不同框架训练好并持久化存储的模型;通过自定义算子将所述ONNX格式文件转换成PLAN格式文件,其中,所述自定义算子用于完成模型特征的相关处理;解析所述ONNX格式文件,生成推理服务器所需的模型配置文件,其中,所述模型配置文件包括所述ONNX格式文件中提取的所述模型的输入和输出信息,在所述模型配置文件中配置使用GPU设备;封装所述PLAN格式文件和所述模型配置文件,打包成所述推理服务器所需的格式;将打包好的文件在所述推理服务器上部署成模型服务,以在所述推理服务器上通过各个GPU设备对所述模型进行在线推理。2.如权利要求1所述的方法,其中,所述自定义算子为feature column算子,所述feature column算子包括string_hash算子、embedding_lookup算子、bucketize算子和categorical算子;其中,所述string_hash算子是用于把输入由int类型的字符串转换成string类型的字符串,再调用farmhash函数完成字符串到哈希值的转换;所述bucketize算子是用于将输入映射至目标桶中,并在batch维度做并行计算,所述输入的形状是[batch,1];所述categorical算子是用于在表中查询输入对应的类别,并返回输入在表中的位置信息;所述embedding_lookup算子是用于在表中查询输入对应的稠密信息,并将输入的稀疏信息转换成稠密信息。3.如权利要求1所述的方法,其中,所述自定义算子通过模型加速工具实现。4.如权利要求3所述的方法,其中,所述自定义算子封装成共享库,以使所述模型加速工具和所述推理服务器加载所述共享库将所述自定义算子注册至算子列表。5.一种基于GPU设备的模型推理加速系统,其特征在于,所述系统包括:自定义算子及实现工具,用于实现自定义算子,其中,所述自定义算子用于完成模型特征的相关处理;自动化模型格式转换工具,用于将模型转换成ONNX格式文件,其中,所述模型是经过不同框架训练...

【专利技术属性】
技术研发人员:赵红博兰伏锋张涛薛延波赵鹏
申请(专利权)人:北京华品博睿网络技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1