一种基于存算一体的深度学习模型终端优化部署方法技术

技术编号：40156511 阅读：37 留言：0更新日期：2024-01-26 23:32

本申请的实施例涉及计算图优化设计技术领域，公开了一种基于存算一体的深度学习模型终端优化部署方法，该方法包括：对训练好的模型进行解析，得到所述模型对应的计算图；在计算图中确定模型所有的分支处，遍历各分支处，将当前分支处的所有张量划分为常量和变量；分别计算当前分支处的每一个候选执行顺序中，生成各变量的算子对应的内存占用峰值，并根据内存占用峰值分别确定当前分支处各候选执行顺序对应的内存占用总和，将内存占用总和最小的候选执行顺序确定为当前分支处的最优执行顺序；基于各分支处对应的最优执行顺序，将模型部署在预设终端上进行推理，从而在不影响模型处理精度的前提下，实现最小的内存占用，减少内存开销。

全部详细技术资料下载

【技术实现步骤摘要】

本申请实施例涉及计算图优化设计，特别涉及一种基于存算一体的深度学习模型终端优化部署方法。

技术介绍

1、近年来，移动设备和可穿戴设备的广泛应用以及深度学习技术的快速发展，为智能应用和服务带来了无处不在的机会。在智能物联场景中，将深度学习模型(以下简称模型)部署到资源受限的智能物联网终端设备已成为一种趋势。

2、然而，随着人们对精度的追求，模型和样本数据的规模不断增大，这给算力和内存带来了巨大压力。以一个224px×224px分辨率的彩色图像分类为例，8层的alexnet模型拥有6.1亿个网络参数，需要执行7.29亿次浮点运算并占用240mb的内存存储，而vgg-16模型则拥有1.44亿个网络参数，需要执行150亿次浮点运算并占用528mb的内存。即使随着片上系统的发展和人工智能芯片的出现，终端设备逐渐具备了较强的计算和存储能力，但仍然无法像传统的cpu、gpu平台那样具备强大的计算和存储能力，无法满足模型在存储和运行方面的需求。

3、为了解决此问题，科研和工业领域开展了一系列基于终端设备的模型优化方法的探索和研究...

【技术保护点】

1.一种基于存算一体的深度学习模型终端优化部署方法，其特征在于，包括：

2.根据权利要求1所述的基于存算一体的深度学习模型终端优化部署方法，其特征在于，所述基于各所述分支处对应的最优执行顺序，将所述模型部署在预设终端上进行推理，包括：

3.根据权利要求2所述的基于存算一体的深度学习模型终端优化部署方法，其特征在于，所述当前裁剪类算子没有可交换的对象，包括：

4.根据权利要求1至2中任一项所述的基于存算一体的深度学习模型终端优化部署方法，其特征在于，所述分别计算所述当前分支处的每一个候选执行顺序中，生成各所述变量的算子对应的内存占用峰值，包括：

<...

【技术特征摘要】

1.一种基于存算一体的深度学习模型终端优化部署方法，其特征在于，包括：

3.根据权利要求2所述的基于存算一体的深度学习模型终端优化部署方法，其特征在于，所述当前裁剪类算子没有可交换的对象，包括：

5.根据权利要求4所述的基于存算一体的深度学习模型终端优化部署方法，其特征在于，在所述将当前分支处的所有张量划分为常量和变量之前，还包括：...

【专利技术属性】
技术研发人员：郭斌，罗诗妍，刘思聪，王柱，梁韵基，於志文，
申请(专利权)人：西北工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人