【技术实现步骤摘要】
一种神经网络模型的压缩方法及相关系统
[0001]本申请涉及人工智能(artificial intelligence,AI)
,尤其涉及一种神经网络模型的压缩方法、系统以及计算设备集群、计算机可读存储介质、计算机程序产品。
技术介绍
[0002]随着人工智能(artificial intelligence,AI)技术尤其是深度学习(deep learning,DL)技术的飞速发展,神经网络模型(为了便于描述,有些情况下也简称为模型)被广泛应用于图像分类、目标检测、语义分割等计算机视觉任务中。在移动设备或嵌入式设备等终端设备上部署神经网络模型逐渐成为AI技术的趋势之一。考虑到终端设备的存储资源和计算资源比较有限,通常需要对神经网络模型进行模型压缩。
[0003]目前,业界通常采用模型剪枝(model pruning)实现模型压缩(model compression)。模型剪枝是指删除模型的冗余权重。神经网络模型中算子的权重通常可以采用多维矩阵表示。例如,用于表征施加卷积操作的算子的权重可以采用n
× />m
×<本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种神经网络模型的压缩方法,其特征在于,所述方法包括:获取神经网络模型,所述神经网络模型包括多个算子;确定所述多个算子中目标算子的剪枝率下界,所述剪枝率下界为通过对算子进行剪枝使得所述算子在硬件上的推理时延相比于所述算子在剪枝前在所述硬件上的推理时延下降时所采用的剪枝率的最小值;根据所述目标算子的剪枝率下界,确定目标剪枝率;根据所述目标剪枝率对所述神经网络模型中的部分或全部算子进行剪枝,获得压缩后的神经网络模型。2.根据权利要求1所述的方法,其特征在于,所述神经网络模型包括多个算子组,其中,在所述多个算子组中归属于同一算子组的算子的权重通道数量相等,所述目标算子包括所述多个算子组中每个算子组的第一算子。3.根据权利要求2所述的方法,其特征在于,所述根据所述目标剪枝率对所述神经网络模型中的部分或全部算子进行剪枝,获得压缩后的神经网络模型,包括:根据所述目标剪枝率,对所述第一算子进行剪枝;当所述第一算子归属的算子组内包括第二算子时,根据所述目标剪枝率对所述第二算子进行剪枝,获得压缩后的神经网络模型。4.根据权利要求1至3任一项所述的方法,其特征在于,所述确定所述多个算子中目标算子的剪枝率下界,包括:根据性能分析工具确定的所述目标算子在所述硬件上的推理时延,采用搜索算法确定所述目标算子的剪枝率下界。5.根据权利要求1至4任一项所述的方法,其特征在于,所述确定所述多个算子中目标算子的剪枝率下界,包括:根据性能分析工具,确定所述目标算子在未剪枝时在所述硬件上的第一推理时延以及所述目标算子按照当前剪枝率剪枝后在所述硬件上的第二推理时延;根据所述第一推理时延、所述第二推理时延、所述目标算子按照上一次剪枝率剪枝后的第三推理时延以及所述当前剪枝率、所述上一次剪枝率,确定所述目标算子的剪枝率下界。6.根据权利要求5所述的方法,其特征在于,所述根据所述第一推理时延、第二推理时延、所述目标算子按照上一次剪枝率剪枝后的第三推理时延以及所述当前剪枝率、所述上一次剪枝率,确定所述目标算子的剪枝率下界,包括:当所述第三推理时延和所述第一推理时延的差值与所述第二推理时延和所述第一推理时延的差值的符号相反,且所述当前剪枝率与所述上一次剪枝率的差值小于剪枝步长时,从所述当前剪枝率和所述上一次剪枝率中确定所述目标算子的剪枝率下界。7.根据权利要求5所述的方法,其特征在于,所述根据所述第一推理时延、第二推理时延、所述目标算子按照上一次剪枝率剪枝后的第三推理时延以及所述当前剪枝率、所述上一次剪枝率,确定所述目标算子的剪枝率下界,包括:当所述第三推理时延和所述第一推理时延的差值与所述第二推理时延和所述第一推理时延的差值相同,或者所述当前剪枝率与所述上一次剪枝率的差值大于剪枝步长时,更新所述当前剪枝率;
确定更新后的所述第二推理时延以及更新后的所述第三推理时延;当更新后的所述第三推理时延和所述第一推理时延的差值与更新后的所述第二推理时延和所述第一推理时延的差值的符号相反,且更新后的所述当前剪枝率与更新后的所述上一次剪枝率的差值小于剪枝步长时,从更新后的所述当前剪枝率和更新后的所述上一次剪枝率中确定所述目标算子的剪枝率下界。8.根据权利要求1至7任一项所述的方法,其特征在于,所述根据所述目标剪枝率对所述神经网络模型中的部分或全部算子进行剪枝,获得压缩后的神经网络模型,包括:评估所述神经网络模型中的部分或全部算子的权重通道的重要性;根据所述部分或全部算子的权重通道的重要性以及所述目标剪枝率,删除所述神经网络模型中所述部分或全部算子的目标权重通道,获得压缩后的神经网络模型。9.根据权利要求1至8任一项所述的方法,其特征在于,所述根据所述目标算子的剪枝率下界,确定目标剪枝率,包括:在所述目标算子的剪枝率下界确定的搜索空间中,搜索得到所述目标剪枝率。10.一种神经网络模型的压缩系统,其特征在于,所述系统包括:交互模块,用于获取神经网络模型,所述神经网络模型包括多...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。