【技术实现步骤摘要】
本专利技术涉及网络模型压缩,特别涉及一种基于attention头重要性的transformer模型压缩方法。
技术介绍
1、近年来,预训练语言模型如bert和gpt的兴起,使自然语言处理取得了重大进展。为获取更强大的语义表示力,这些模型的规模不断扩大,从数亿参数增长到万亿。大模型参数量巨大,导致计算和存储成本急剧增加,给实际部署与应用带来了巨大挑战。因此,对这些大规模transformer模型进行压缩与加速成为当下的重要课题。
2、在众多网络压缩技术中,剪枝(pruning)是减少模型复杂度的最佳方法之一,深度神经网络存在一定的冗余性,模型剪枝方法试图去除网络中不必要的参数,以减少网络总体的参数数量,一个典型的神经网络剪枝流程通常遵照以下三步:确定权重的重要性、删除不必要的权重和微调网络以恢复精度。
3、然而现有的基于裁剪层或单元的压缩方法存在以下不足,使得对transformer模型效果有限:
4、1.简单裁剪易造成误裁:简单的裁剪模型的层数或单元数较少,很难对模型影响较小的部分进行精确定位,容易裁
...【技术保护点】
1.一种基于Attention头重要性的Transformer模型压缩方法,其特征在于,包括:
2.根据权利要求1所述的基于Attention头重要性的Transformer模型压缩方法,其特征在于,所述根据多头Attention组件中的每一Attention头的权重矩阵,获取每一Attention头的重要性评估分数的方法包括:
3.根据权利要求2所述的基于Attention头重要性的Transformer模型压缩方法,其特征在于,所述对多头Attention组件中的每一Attention头的权重矩阵进行L2范数打分的方法包括:
4
...【技术特征摘要】
1.一种基于attention头重要性的transformer模型压缩方法,其特征在于,包括:
2.根据权利要求1所述的基于attention头重要性的transformer模型压缩方法,其特征在于,所述根据多头attention组件中的每一attention头的权重矩阵,获取每一attention头的重要性评估分数的方法包括:
3.根据权利要求2所述的基于attention头重要性的transformer模型压缩方法,其特征在于,所述对多头attention组件中的每一attention头的权重矩阵进行l2范数打分的方法包括:
4.根据权利要求3所述的基于attention头重要性的transformer模型压缩方法,其特征在于,所述根据l2范数打分的结果,获取每一attention头的重要性评估分数的方法包括:
5.根据权利要求4所述的基于attention头重要性的transformer模型压缩方法,其特征在于,所述根据l2范数打分的结果,获取每一attention头的重要性评估分数的方法还包括:
6.根据权利要求1所述的基于attention头重要性的transformer模型压缩方法,其特征在于,所述对所有attention头按照重要...
【专利技术属性】
技术研发人员:刘汉亮,林栋,邱述洪,
申请(专利权)人:联通广东产业互联网有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。