模型处理方法、装置、电子设备以及存储介质制造方法及图纸

技术编号:24290129 阅读:51 留言:0更新日期:2020-05-26 20:15
本申请实施例公开了一种模型处理方法、装置、电子设备及存储介质。本方法通过在当轮的当次处理过程中,获取确定的待处理网络模型包括的卷积层中的当前待加载冗余层,若当前待加载冗余层满足删除条件,在待处理网络模型加载的过程中取消加载当前待加载冗余层,继而进入当轮的下一次处理过程,直到完成对卷积层中的所有待加载冗余层的判断,得到待调整网络模型,再对待调整网络模型进行微调训练后获取准确度满足目标条件对应的待调整模型作为压缩后得到的目标网络模型。通过在待处理网络模型加载的过程中取消加载当前待加载冗余层的方式,实现删除待加载冗余层,通过对卷积层中的所有待加载冗余层的判断,可以实现准确的删除待加载冗余层。

Model processing method, device, electronic equipment and storage medium

【技术实现步骤摘要】
模型处理方法、装置、电子设备以及存储介质
本申请涉及深度学习
,更具体地,涉及一种模型处理方法、装置、电子设备以及存储介质。
技术介绍
随着科学技术的快速发展,以神经网络模型为基础的深度学习技术得到快速发展,在包括图片识别、目标检测、语义分割、语音识别和自然语言处理等多个应用领域都取得了突破性成果。例如,相对于传统图像处理存在的诸多局限,深度学习对于复杂的图像处理任务有着得天独厚的优势。然而,伴随着计算能力的不断增强,模型也变得越来也大,参数量也几近爆炸式增长,使得深度学习对运算资源要求越来越高。这种对计算资源的严重依赖,限制了其在边缘设备上的应用。
技术实现思路
鉴于上述问题,本申请提出了一种模型处理方法、装置、电子设备以及存储介质,以改善上述问题。第一方面,本申请实施例提供了一种模型处理方法,所述方法包括:在当轮的当次处理过程中,获取确定的待处理网络模型包括的卷积层中的当前待加载冗余层;若所述当前待加载冗余层满足删除条件,在所述待处理网络模型加载的过程中取消加载所述当前待加载冗余层,以删除所述当前待加载冗余层;进入所述当轮的下一次所述处理过程,直到完成对所述卷积层中的所有待加载冗余层的判断,得到待调整网络模型;对所述待调整网络模型进行微调训练,并获取微调训练后的所述待调整网络模型的准确度,并判断所述准确度是否满足目标条件;若不满足目标条件,进入下一轮所述处理过程,直到获取准确度满足目标条件对应的待调整网络模型,将所述待调整模型作为压缩后得到的目标网络模型,其中,将当轮的微调训练后的所述待调整网络模型,作为下一轮处理过程中的确定的待处理网络模型。第二方面,本申请实施例提供了一种模型处理装置,所述装置包括:获取模块,用于在当轮的当次处理过程中,获取确定的待处理网络模型包括的卷积层中的当前待加载冗余层;第一处理模块,用于若所述当前待加载冗余层满足删除条件,在所述待处理网络模型加载的过程中取消加载所述当前待加载冗余层,以删除所述当前待加载冗余层;迭代处理模块,用于进入所述当轮的下一次所述处理过程,直到完成对所述卷积层中的所有待加载冗余层的判断,得到待调整网络模型;第二处理模块,用于对所述待调整网络模型进行微调训练,并获取微调训练后的所述待调整网络模型的准确度,并判断所述准确度是否满足目标条件;第三处理模块,用于若不满足目标条件,进入下一轮所述处理过程,直到获取准确度满足目标条件对应的待调整网络模型,将所述待调整模型作为压缩后得到的目标网络模型,其中,将当轮的微调训练后的所述待调整网络模型,作为下一轮处理过程中的确定的待处理网络模型。第三方面,本申请实施例提供了一种电子设备,包括一个或多个处理器以及存储器;一个或多个程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序配置用于执行上述第一方面所述的方法。第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有程序代码,其中,在所述程序代码运行时执行上述第一方面所述的方法。本申请提供的一种模型处理方法、装置、电子设备及存储介质。本方法通过在当轮的当次处理过程中,获取确定的待处理网络模型包括的卷积层中的当前待加载冗余层,若当前待加载冗余层满足删除条件,在待处理网络模型加载的过程中取消加载当前待加载冗余层,继而进入当轮的下一次处理过程,直到完成对卷积层中的所有待加载冗余层的判断,得到待调整网络模型,再对待调整网络模型进行微调训练,并获取微调训练后的待调整网络模型的准确度,并判断准确度是否满足目标条件,若不满足目标条件,进入下一轮处理过程,直到获取准确度满足目标条件对应的待调整网络模型,然后将准确度满足目标条件对应的待调整模型作为压缩后得到的目标网络模型。本方法通过在当前待加载冗余层满足删除条件的情况下,在待处理网络模型加载的过程中取消加载当前待加载冗余层的方式,实现删除待加载冗余层,通过对卷积层中的所有待加载冗余层的判断,可以实现准确的删除待加载冗余层,在对卷积层中的所有待加载冗余层的判断后,得到的待调整网络模型进行微调训练后的准确度不满足目标条件的情况下,进入下一轮处理过程,以实现对待处理网络模型进行多轮次压缩微调处理,进而获取得到推理效果好、泛化能力强、模型更加轻量化且可以在边缘设备上有效运行的目标网络模型。附图说明为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1示出了本申请一实施例提出的模型处理方法的方法流程图。图2示出了本申请实施例中的对待处理网络模型进行稀疏训练的训练过程示意图。图3示出了图1中的步骤S120的方法流程图。图4示出了本申请实施例中的当前待加载冗余层与上下层的连接信道张量的示例图。图5示出了本申请另一实施例提出的模型处理方法的方法流程图。图6示出了图2中的步骤S210的方法流程图。图7示出了图2中的步骤S220的方法流程图。图8示出了本申请实施例中的待加载冗余层在被裁剪前以及裁剪后的效果对比图。图9示出了本申请又一实施例提出的模型处理方法的方法流程图。图10示出了本申请实施例中的一轮处理过程中对待加载冗余层进行裁剪的原理流程图。图11示出了本申请实施例提出的模型处理装置的结构框图。图12示出了本申请的用于执行根据本申请实施例的模型处理方法的电子设备的结构框图。图13是本申请实施例的用于保存或者携带实现根据本申请实施例的模型处理方法的程序代码的存储单元。具体实施方式下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。随着科学技术的快速发展,深度学习解决了许多具有挑战的问题,其成果已经广泛地应用于计算机视觉、语音识别、自然语言处理等领域。基于深度学习图像识别、视频处理、语音识别等技术在边缘计算系统的端设备上有巨大的应用前景和需求。然而训练和执行深度学习模型通常需要大量数据存储空间以及超强的计算能力。现有的边缘计算设备,计算能力、存储能力、网络带宽和电力等资源不足以运行深度学习模型。深度学习模型参数庞大、需要大量的计算能力,这种对计算资源的严重依赖,限制了其在边缘设备上的应用。对于嵌入式等边缘设备而言,其所拥有的算力很难满足深度学习模型的部署要求。作为一种方式,为了在边缘设备上运行深度学习算法,可以设计并训练小的模型,但是直接训练出的小模型的推理效果和泛化能力十分得有限。作为另一种方式,也可以在小的模型上添枝加叶来提升推理效果,但是小模型由于自身特征提取能力不足,往往导致训练难以收敛。因此,专利技术人提出了本申请中可以本文档来自技高网...

【技术保护点】
1.一种模型处理方法,其特征在于,所述方法包括:/n在当轮的当次处理过程中,获取确定的待处理网络模型包括的卷积层中的当前待加载冗余层;/n若所述当前待加载冗余层满足删除条件,在所述待处理网络模型加载的过程中取消加载所述当前待加载冗余层,以删除所述当前待加载冗余层;/n进入所述当轮的下一次所述处理过程,直到完成对所述卷积层中的所有待加载冗余层的判断,得到待调整网络模型;/n对所述待调整网络模型进行微调训练,并获取微调训练后的所述待调整网络模型的准确度,并判断所述准确度是否满足目标条件;/n若不满足目标条件,进入下一轮所述处理过程,直到获取准确度满足目标条件对应的待调整网络模型,将所述待调整模型作为压缩后得到的目标网络模型,其中,将当轮的微调训练后的所述待调整网络模型,作为下一轮处理过程中的确定的待处理网络模型。/n

【技术特征摘要】
1.一种模型处理方法,其特征在于,所述方法包括:
在当轮的当次处理过程中,获取确定的待处理网络模型包括的卷积层中的当前待加载冗余层;
若所述当前待加载冗余层满足删除条件,在所述待处理网络模型加载的过程中取消加载所述当前待加载冗余层,以删除所述当前待加载冗余层;
进入所述当轮的下一次所述处理过程,直到完成对所述卷积层中的所有待加载冗余层的判断,得到待调整网络模型;
对所述待调整网络模型进行微调训练,并获取微调训练后的所述待调整网络模型的准确度,并判断所述准确度是否满足目标条件;
若不满足目标条件,进入下一轮所述处理过程,直到获取准确度满足目标条件对应的待调整网络模型,将所述待调整模型作为压缩后得到的目标网络模型,其中,将当轮的微调训练后的所述待调整网络模型,作为下一轮处理过程中的确定的待处理网络模型。


2.根据权利要求1所述的方法,其特征在于,所述待处理网络模型包括多个卷积层,所述获取确定的待处理网络模型的卷积层包括的当前待加载冗余层,包括:
获取与确定的待处理网络模型的所述多个卷积层分别对应的第一权值参数,所述第一权值参数用于表征与卷积层对应的模板矩阵;
分别获取基于所述第一权值参数确定的与所述卷积层对应的重要性参数,并基于所述重要性参数对所述多个卷积层进行排序,所述重要性参数用于表征卷积层的重要程度,所述重要性参数的值越高对应的卷积层的排列顺序越靠前;
将所述重要性参数的值低于预设阈值的对应卷积层作为待加载冗余层;
若所述待加载冗余层包括一个冗余层,将所述待加载冗余层作为确定的待处理网络模型的卷积层包括的当前待加载冗余层;
若所述待加载冗余层包括多个冗余层,将所述多个待加载冗余层中排列顺序在前的冗余层作为确定的待处理网络模型的卷积层包括的当前待加载冗余层。


3.根据权利要求2所述的方法,其特征在于,每个卷积层包括多个第二权值参数,所述获取与确定的待处理网络模型的所述多个卷积层分别对应的第一权值参数,包括:
获取通过文件指针加载所述多个第二权值参数的移动范围,所述文件指针指向所述第二权值参数所表征的网络结构的存储位置;
基于所述移动范围获取与确定的待处理网络模型的所述多个卷积层分别对应的第一权值参数。


4.根据权利要求3所述的方法,其特征在于,所述分别获取基于所述第一权值参数确定的与所述卷积层对应的重要性参数,包括:
获取每个卷积层的所述多个第二权值参数之间的范式距离参数;
获取与所述范式距离参数对应的绝对值分布直方图;
获取基于所述绝对值分布直方图确定的加权平均参数;
基于所述加权平均参数获取第一权值参数;
将所述第一权值参数作为与所述卷积层对应的重要性参数。


5.根据权利要求1所述的方法,其特征在于,所述获取确定的待处理网络模型包括的卷积层中的当前待加载冗余层,包括:
获取确定的待处理网络模型包括的当前卷积层的卷积层序号;
获取所述确定的待处理网络模型的卷积层包括的待加载冗余层数组,所述待加载冗余层数组中存储有与待加载冗余层对应的卷...

【专利技术属性】
技术研发人员:彭登
申请(专利权)人:广东博智林机器人有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1