一种transformer混合比特量化方法及系统技术方案

技术编号:37821404 阅读:10 留言:0更新日期:2023-06-09 09:57
本发明专利技术公开了一种transformer的混合比特量化方法,包括以下步骤:获取训练好的transformer模型、校准数据集、硬件平台参数和模型运行质量要求;根据transformer模型和校准数据集计算出模型的各个神经网络层的敏感度;根据硬件平台参数进行模拟计算,对比不同比特搬运数据和推理的开销,得到硬件开销信息,根据硬件开销信息和模型运行质量要求生成硬件影响信息;利用优化算法或者Automl技术对敏感度和硬件影响信息进行优化,输出混合比特量化方案。该方法结合硬件特性,对transformer类模型量化部署提供更便捷的支持,保证模型的精度最优的前提下,同时节约计算资源,提升模型性能。型性能。型性能。

【技术实现步骤摘要】
一种transformer混合比特量化方法及系统


[0001]本专利技术涉及深度学习
,具体涉及一种transformer的混合比特量化方法及系统。

技术介绍

[0002]与主流卷积神经网络相比,transformer具有更复杂的网络结构,在移动端、边缘端、嵌入式可穿戴设备等端侧部署更难。通常情况下,需要对模型做混合比特量化,在损失少量精度的前提下对模型进行压缩,使得将这些复杂的模型应用到手机、机器人等嵌入式终端中变成了可能。但是,目前的混合比特量化方案,大部分没有考虑到硬件特性,尤其是专用AI处理器的特点进行混合比特量化。transformer模型近几年发展很迅速,除了NLP自然语言处理领域,在计算机视觉领域,Vision Transforme也越来越普及,现有的误差分析和优化方法在新的模型上效果不太理想。

技术实现思路

[0003]针对现有技术中的缺陷,本专利技术提供一种transformer的混合比特量化方法、系统、终端及介质,结合硬件特性,对transformer类模型量化部署提供更便捷的支持,保证模型的精度最优的前提下,同时节约计算资源,提升模型性能。
[0004]第一方面,本专利技术实施例提供的一种transformer的混合比特量化方法,包括以下步骤:
[0005]获取训练好的transformer模型、校准数据集、硬件平台参数和模型运行质量要求;
[0006]根据transformer模型和校准数据集计算出模型的各个神经网络层的敏感度;
[0007]根据硬件平台参数进行模拟计算,对比不同比特搬运数据和推理的开销,得到硬件开销信息,根据硬件开销信息和模型运行质量要求生成硬件影响信息;
[0008]利用优化算法或者Automl技术对敏感度和硬件影响信息进行优化,输出混合比特量化方案。
[0009]可选地,根据transformer模型和校准数据集计算出模型的各个神经网络层的敏感度的具体方法包括:
[0010]计算每层神经网络层的Hessian频谱,根据每层神经网络层的Hessian频谱确定各层对量化的敏感度;
[0011]计算每层神经网络层的MSE Loss,根据校准数据集,逐层配置不同比特,做一次前向推理观测模型loss损失,确定各神经网络层对量化的敏感度;
[0012]计算每层神经网络层的余弦距离,根据校准数据集,对模型量化前后tensor的距离确定各层对量化的敏感度。
[0013]可选地,模型运行质量要求包括精度、性能和功耗的要求。
[0014]可选地,优化算法包括:遗传算法、线性规划算法、帕累托最优方法和动态规划法。
[0015]可选地,使用Automl技术对敏感度和硬件影响信息进行优化的具体方法包括:建立一个超网络,通过对超网络搜索,找出效果最佳的子网作为最终结果。
[0016]第二方面,本专利技术实施例提供的一种transformer的混合比特量化系统,包括:数据获取模块、敏感度计算模块、硬件模拟模块和输出模块,所述数据获取模块用于获取训练好的transformer模型、校准数据集、硬件平台参数和模型运行质量要求;
[0017]所述敏感度计算模块用于根据transformer模型和校准数据集计算出模型的各个神经网络层的敏感度;
[0018]所述硬件模拟模块用于根据硬件平台参数进行模拟计算,对比不同比特搬运数据和推理的开销,得到硬件开销信息,根据硬件开销信息和模型运行质量要求生成硬件影响信息;
[0019]所述优化模块用于利用优化算法或者Automl技术对敏感度和硬件影响信息进行优化,输出混合比特量化方案。
[0020]可选地,所述敏感度计算模块包括Hessian频谱计算单元、MSE Loss计算单元和余弦距离计算单元,所述Hessian频谱计算单元用于计算每层神经网络层的Hessian频谱,根据每层神经网络层的Hessian频谱确定各层对量化的敏感度;
[0021]所述MSE Loss计算单元用于计算每层神经网络层的MSE Loss,根据校准数据集,逐层配置不同比特,做一次前向推理观测模型loss损失,确定各神经网络层对量化的敏感度;
[0022]所述余弦距离计算单元用于计算每层神经网络层的余弦距离,根据校准数据集,对模型量化前后tensor的距离确定各层对量化的敏感度。
[0023]可选地,模型运行质量要求包括精度、性能和功耗的要求。
[0024]第三方面,本专利技术实施例提供的一种智能终端,包括处理器、输入设备、输出设备和存储器,所述处理器、输入设备、输出设备和存储器相互连接,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行上述实施例描述的方法。
[0025]第四方面,本专利技术实施例提供的一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行上述实施例描述的方法。
[0026]本专利技术的有益效果:
[0027]本专利技术公开的一种transformer的混合比特量化方法、系统、终端及介质,结合硬件特性,对transformer类模型量化部署提供更便捷的支持,保证模型的精度最优的前提下,同时节约计算资源,提升模型性能。
附图说明
[0028]为了更清楚地说明本专利技术具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。在所有附图中,类似的元件或部分一般由类似的附图标记标识。附图中,各元件或部分并不一定按照实际的比例绘制。
[0029]图1示出了本专利技术第一实施例所提供的一种transformer的混合比特量化方法的流程图;
[0030]图2示出了本专利技术第二实施例所提供的一种transformer的混合比特量化系统的结构示意图;
[0031]图3示出了本专利技术第三实施例所提供的一种智能终端的结构示意图。
具体实施方式
[0032]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0033]应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
[0034]还应当理解,在此本专利技术说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本专利技术。如在本专利技术说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
[0035]还应当进一步理解,本专利技术说明书和所附权利本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种transformer的混合比特量化方法,其特征在于,包括以下步骤:获取训练好的transformer模型、校准数据集、硬件平台参数和模型运行质量要求;根据transformer模型和校准数据集计算出模型的各个神经网络层的敏感度;根据硬件平台参数进行模拟计算,对比不同比特搬运数据和推理的开销,得到硬件开销信息,根据硬件开销信息和模型运行质量要求生成硬件影响信息;利用优化算法或者Automl技术对敏感度和硬件影响信息进行优化,输出混合比特量化方案。2.如权利要求1所述的方法,其特征在于,所述根据transformer模型和校准数据集计算出模型的各个神经网络层的敏感度的具体方法包括:计算每层神经网络层的Hessian频谱,根据每层神经网络层的Hessian频谱确定各层对量化的敏感度;计算每层神经网络层的MSE Loss,根据校准数据集,逐层配置不同比特,做一次前向推理观测模型loss损失,确定各神经网络层对量化的敏感度;计算每层神经网络层的余弦距离,根据校准数据集,对模型量化前后tensor的距离确定各层对量化的敏感度。3.如权利要求1所述的方法,其特征在于,所述模型运行质量要求包括精度、性能和功耗的要求。4.如权利要求1所述的方法,其特征在于,所述优化算法包括:遗传算法、线性规划算法、帕累托最优方法和动态规划法。5.如权利要求1所述的方法,其特征在于,所述使用Automl技术对敏感度和硬件影响信息进行优化的具体方法包括:建立一个超网络,通过对超网络搜索,找出效果最佳的子网作为最终结果。6.一种transformer的混合比特量化系统,其特征在于,包括:数据获取模块、敏感度计算模块、硬件模拟模块和优化模块,所述数据获取模块用于获取训练好的transformer模型、校准数据集、硬件平台参数和模型运行质量要求...

【专利技术属性】
技术研发人员:赵武金宋莉莉张祥建
申请(专利权)人:北京视海芯图微电子有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1