【技术实现步骤摘要】
一种transformer混合比特量化方法及系统
[0001]本专利技术涉及深度学习
,具体涉及一种transformer的混合比特量化方法及系统。
技术介绍
[0002]与主流卷积神经网络相比,transformer具有更复杂的网络结构,在移动端、边缘端、嵌入式可穿戴设备等端侧部署更难。通常情况下,需要对模型做混合比特量化,在损失少量精度的前提下对模型进行压缩,使得将这些复杂的模型应用到手机、机器人等嵌入式终端中变成了可能。但是,目前的混合比特量化方案,大部分没有考虑到硬件特性,尤其是专用AI处理器的特点进行混合比特量化。transformer模型近几年发展很迅速,除了NLP自然语言处理领域,在计算机视觉领域,Vision Transforme也越来越普及,现有的误差分析和优化方法在新的模型上效果不太理想。
技术实现思路
[0003]针对现有技术中的缺陷,本专利技术提供一种transformer的混合比特量化方法、系统、终端及介质,结合硬件特性,对transformer类模型量化部署提供更便捷的支持, ...
【技术保护点】
【技术特征摘要】
1.一种transformer的混合比特量化方法,其特征在于,包括以下步骤:获取训练好的transformer模型、校准数据集、硬件平台参数和模型运行质量要求;根据transformer模型和校准数据集计算出模型的各个神经网络层的敏感度;根据硬件平台参数进行模拟计算,对比不同比特搬运数据和推理的开销,得到硬件开销信息,根据硬件开销信息和模型运行质量要求生成硬件影响信息;利用优化算法或者Automl技术对敏感度和硬件影响信息进行优化,输出混合比特量化方案。2.如权利要求1所述的方法,其特征在于,所述根据transformer模型和校准数据集计算出模型的各个神经网络层的敏感度的具体方法包括:计算每层神经网络层的Hessian频谱,根据每层神经网络层的Hessian频谱确定各层对量化的敏感度;计算每层神经网络层的MSE Loss,根据校准数据集,逐层配置不同比特,做一次前向推理观测模型loss损失,确定各神经网络层对量化的敏感度;计算每层神经网络层的余弦距离,根据校准数据集,对模型量化前后tensor的距离确定各层对量化的敏感度。3.如权利要求1所述的方法,其特征在于,所述模型运行质量要求包括精度、性能和功耗的要求。4.如权利要求1所述的方法,其特征在于,所述优化算法包括:遗传算法、线性规划算法、帕累托最优方法和动态规划法。5.如权利要求1所述的方法,其特征在于,所述使用Automl技术对敏感度和硬件影响信息进行优化的具体方法包括:建立一个超网络,通过对超网络搜索,找出效果最佳的子网作为最终结果。6.一种transformer的混合比特量化系统,其特征在于,包括:数据获取模块、敏感度计算模块、硬件模拟模块和优化模块,所述数据获取模块用于获取训练好的transformer模型、校准数据集、硬件平台参数和模型运行质量要求...
【专利技术属性】
技术研发人员:赵武金,宋莉莉,张祥建,
申请(专利权)人:北京视海芯图微电子有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。