【技术实现步骤摘要】
一种基于CPU设备的模型推理加速方法和系统
[0001]本专利技术涉及机器学习
,具体而言,涉及一种基于CPU设备的模型推理加速方法和系统。
技术介绍
[0002]推荐系统通过推荐模型来为用户提供个性化的推荐结果,而推荐结果的召回率与推荐模型的特征数量息息相关。推荐模型使用的特征越多,模型参数量越多,模型体积越大,推理耗时越长。由于CPU设备的并行计算能力及缓存大小约束了模型密集计算的吞吐量,在确保推荐模型召回率的前提下,如何对推荐模型进行推理加速,最大限度地发挥CPU设备的性能,并满足线上推理服务耗时的需求,是推理服务亟待解决的问题之一。
[0003]https://oldpan.me/archives/openvino
‑
first
‑
try中介绍了Openvino初探(实际体验),简述了使用OpenVINO进行人体姿态估计HNet模型的推理加速。北京交通大学硕士专业学位论文《深度目标检测模型的边缘计算方案研究》公开了使用TensorFlow进行深度目标检测,其是基于目标 ...
【技术保护点】
【技术特征摘要】
1.一种基于CPU设备的模型推理加速方法,其特征在于,所述方法包括:将模型转换成ONNX格式文件,并在转换过程中基于所述模型的特征处理相关算子进行自定义算子的等价替换与融合,得到ONNX算子,其中,所述模型是经过不同框架训练好的模型,所述ONNX算子表示所述ONNX格式文件中的自定义算子;在OpenVINO中定义所述自定义算子并添加所述自定义算子的替换方法,以实现所述ONNX算子至OpenVINO算子的转换,其中,所述OpenVINO算子表示所述OpenVINO中的自定义算子;将所述ONNX格式文件转换成IR格式文件,其中,所述IR格式文件包括一个xml文件和一个bin文件,所述xml文件用于定义模型拓扑结构,所述bin文件用于存储模型参数;在CPU设备上实现所述OpenVINO算子的计算流程,以编译成动态链接库;解析所述ONNX格式文件,生成推理服务器所需的模型配置文件,并将所述模型配置文件、所述IR格式文件和所述动态链接库打包成所述推理服务器所需的格式文件,其中,所述模型配置文件包括从所述ONNX格式文件中提取的所述模型的输入和输出信息以及编译好的所述动态链接库的路径;将打包好的文件在所述推理服务器上部署成模型服务,以在所述推理服务器上通过各个CPU设备对所述模型进行在线推理。2.如权利要求1所述的方法,其中,所述在OpenVINO中定义所述自定义算子包括定义所述自定义算子的名称、输入的个数、输出的个数、属性、输入和输出的维度以及输入和输出的数据类型。3.如权利要求1所述的方法,其中,所述模型在特征处理时采用多种特征处理方法,所述模型在转换成ONNX格式文件后,每种特征处理方法被拆分成多个基础算子,所述在转换过程中基于所述模型的特征处理相关算子进行自定义算子的等价替换与融合,得到ONNX算子,包括:采用模式匹配方法,当匹配到一个模式后,从该模式对应的特征处理方法被拆分得到的所有基础算子中提取有用的属性信息,并将首算子的输入设为所述自定义算子的输入,将尾算子的输出设为所述自定义算子的输出,将提取的属性设为所述自定义算子的属性,得到ONNX算子。4.如权利要求1所述的方法,其中,所述自定义算子包括离散类特征算子、连续型特征算子和embedding算子;其中,所述离散类特征算子包括CategoricalPlugin算子, StringToHashPlugin算子和SpecStringToHashPlugin算子,所述CategoricalPlugin算子用于查找词表并返回one
‑
hot 编码,所述StringToHashPlugin算子用于在输入类别多时对输入进行哈希值分箱处理,所述SpecStringToHashPlugin算子用于对异常值
‑
1进行处理;所述连续型特征算子包括IntBucketizePlugin算子和FloatBucketizePlugin算子,所述IntBucketizePlugin算子用于对整数型特征进行分箱处理,所述FloatBucketizePlugin算子用于对浮点型特征进行分箱处理;所述embedding算子包括EmbeddingPlugin算子和SafeEmbeddingPlugin算子,所述EmbeddingPlugin算子用于查询索引表中输入对应的稠密信息,并将输入的稀疏信息转换成稠密信息后取平均值,所述SafeEmbeddingPlugin算子用于对小于0的异常值进行处理。
5.如权利要求4所述的方法,其中,所述CategoricalPlugin算子在所述模型初始化时使用HashMap将词表和索引表构建成Hash表。6.如权利要求4所述的方法,其中,使用AVX512指令集完成所述embedding算子计算过程中的求和计算以及取平均计算。7.一种基于CPU设备的模型推理加速系统,其特征在于,所述系统包括:自动化模型格式转换工具,用于将模型转换成ONNX格式文件,并在转换过程中基于所述模型的特征处理相关算...
【专利技术属性】
技术研发人员:李滨滨,兰伏锋,张涛,薛延波,赵鹏,
申请(专利权)人:北京华品博睿网络技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。