量化神经网络模型的片内执行方法、装置、设备及介质制造方法及图纸

技术编号：35792796 阅读：11 留言：0更新日期：2022-12-01 14:42

本发明专利技术公开了量化神经网络模型的片内执行方法、装置、设备及介质。该方法包括：获取与待加载至目标AI加速芯片中的量化神经网络模型匹配的原始算子图；根据目标AI加速芯片的计算单元特征和/或指令集特征重构原始算子图得到第一算子图；在第一算子图的第二量化敏感节点集合中确定目标节点并替换为分支网络；将第一算子图中第一量化敏感节点集合的计算节点替换为非量化节点；根据目标AI加速芯片的存储层级特征重构第一算子图得到第二算子图；再训练与第二算子图对应的原始量化重构模型，并加载至目标AI加速芯片内执行。通过本发明专利技术的技术方案，能够在提高量化神经网络模型精度的基础上，将AI加速芯片的计算性能发挥到最优。将AI加速芯片的计算性能发挥到最优。将AI加速芯片的计算性能发挥到最优。

全部详细技术资料下载

【技术实现步骤摘要】
量化神经网络模型的片内执行方法、装置、设备及介质

[0001]本专利技术涉及神经网络模型的片内执行领域，尤其涉及量化神经网络模型的片内执行方法、装置、设备及介质。

技术介绍

[0002]随着神经网络模型
的逐渐发展，对神经网络模型的压缩部署及计算加速度有着更高的要求。
[0003]现有技术中，为了有效减少AI(人工智能，Artificial Intelligence)加速芯片的存储数据量，提升AI加速芯片的运行性能，通常采用低比特模型量化的方式对神经网络模型进行压缩后，再部署在AI加速芯片上。然而，采用低比特量化模型的方式会在模型实际部署的过程中带来精度下降的问题，同时，现有的量化部署方式一般均采用静态的量化部署方式，没有实际考虑AI加速芯片的实际的硬件特点。因此，如何有效地解决低比特量化模型部署的神经网络模型精度下降的问题，以及如何在神经网络模型量化部署后，充分发挥AI加速芯片的计算性能，是目前亟待解决的问题。

技术实现思路

[0004]本专利技术实施例提供了一种量化神经网络模型的片内执行方法、装置、设备及介质，以实现在提高量化神经网络模型精度的同时，实现量化神经网络模型与所部署AI加速芯片间的精准适配。
[0005]根据本专利技术的一方面，提供了一种量化神经网络模型的片内执行方法，包括：
[0006]获取与待加载至目标AI加速芯片中的量化神经网络模型匹配的原始算子图，其中，量化神经网络模型通过对目标神经网络模型进行后训练量化得到；
[0007]根据目标AI加速...

【技术保护点】

【技术特征摘要】
1.一种量化神经网络模型的片内执行方法，其特征在于，包括：获取与待加载至目标人工智能AI加速芯片中的量化神经网络模型匹配的原始算子图，其中，量化神经网络模型通过对目标神经网络模型进行后训练量化得到；根据目标AI加速芯片中的计算单元特征和/或指令集特征，对原始算子图进行一次重构，得到第一算子图；在第一算子图中的各计算节点中，识别第一量化敏感节点集合和第二量化敏感节点集合，并在第二量化敏感节点集合中确定设定数量的目标节点；其中，第一量化敏感节点的量化敏感度高于第二量化敏感节点；在第一算子图中，将第一量化敏感节点集合中的各计算节点替换为非量化节点，并将各目标节点使用分支网络进行替换，其中，分支网络中包括与所替换节点结构相同的多个分支节点，用于加权拟合所替换节点的计算结果；根据目标AI加速芯片的存储层级特征，对第一算子图进行二次重构，得到第二算子图；对与第二算子图对应的原始量化重构模型进行再训练，得到目标量化重构模型，并将目标量化重构模型加载至目标AI加速芯片内进行执行。2.根据权利要求1所述的方法，其特征在于，在第一算子图中的各计算节点中，识别第一量化敏感节点集合和第二量化敏感节点集合，包括：分别计算第一算子图中的各计算节点对目标神经网络模型的损失函数影响度；识别损失函数影响度超过第一影响度阈值的第一量化敏感节点，形成第一量化敏感节点集合；识别损失函数影响度大于或者等于第二影响度阈值，且小于第一影响度阈值的第二量化敏感节点，形成第二量化敏感节点集合，其中，第一影响度阈值大于第二影响度阈值。3.根据权利要求2所述的方法，其特征在于，分别计算第一算子图中的各计算节点对目标神经网络模型的损失函数影响度，包括：将测试输入数据分别输入至所述目标神经网络模型以及所述量化神经网络模型中；获取各计算节点在所述目标神经网络模型以及所述量化神经网络模型中的原始输出特征图以及量化输出特征图；根据各所述原始输出特征图以及量化输出特征图，计算每个计算节点在量化前后的特征图差异值作为损失函数影响度。4.根据权利要求2所述的方法，其特征在于，分别计算第一算子图中的各计算节点对目标神经网络模型的损失函数影响度，包括：在各所述计算节点中，依次获取当前处理节点；将测试输入数据输入至所述目标神经网络模型中，并计算得到所述目标神经网络模型针对所述测试输入数据的第一损失函数值；将所述目标神经网络模型中，与所述当前处理节点对应的原始权重矩阵，替换为所述量化神经网络模型中，与所述当前处理节点对应的量化权重矩阵；重新将所述测试输入数据输入至所述目标神经网络模型中，并计算得到所述目标神经网络模型针对所述测试输入数据的第二损失函数值；计算所述第一损失函数值与所述第二损失函数值之间的损失差异值，并在确定所述损失差异值满足损失差异门限条件时，将所述当前处理节点确定为量化敏感节点；
返回执行在各所述计算节点中，依次获取当前处理节点的操作，直至完成对全部计算节点的处理。5.根据权利要求1所述的方法，其特征在于，在将各目标节点使用分支网络进行替换之前，还包括：根据各目标节点的量化前后处理差异，确定与各所述目标节点分别对应的分支数量范围；根据各所述目标节点的分支数量范围，以及目标AI加速芯片中的计算单元总数量，确定与各所述目标节点分别对应的分支数量，并按照各所述分支数量构建与各所...

【专利技术属性】
技术研发人员：朱姗，孙诚程，
申请(专利权)人：上海燧原科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人