基于Attention头重要性的Transformer模型压缩方法技术

技术编号:40101613 阅读:22 留言:0更新日期:2024-01-23 17:47
本发明专利技术提供一种基于Attention头重要性的Transformer模型压缩方法,包括:获取Transformer模型中的多头Attention组件;根据多头Attention组件中的每一Attention头的权重矩阵,获取每一Attention头的重要性评估分数;对所有Attention头按照重要性评估分数从高至低排序,并按照预设条件删除排序靠后的若干个Attention头,以得到更新后的Transformer模型;采用fine‑tuning对更新后的Transformer模型进行微调训练,以得到压缩后的Transformer模型。通过选择性删除低重要Attention头并进行Fine‑tuning调整,获得一个压缩过参数规模的Transformer模型,使得在保留模型精度的同时降低了模型参数量,解决了现有模型压缩方法对参数级别较高的大模型压缩效果较差的问题。

【技术实现步骤摘要】

本专利技术涉及网络模型压缩,特别涉及一种基于attention头重要性的transformer模型压缩方法。


技术介绍

1、近年来,预训练语言模型如bert和gpt的兴起,使自然语言处理取得了重大进展。为获取更强大的语义表示力,这些模型的规模不断扩大,从数亿参数增长到万亿。大模型参数量巨大,导致计算和存储成本急剧增加,给实际部署与应用带来了巨大挑战。因此,对这些大规模transformer模型进行压缩与加速成为当下的重要课题。

2、在众多网络压缩技术中,剪枝(pruning)是减少模型复杂度的最佳方法之一,深度神经网络存在一定的冗余性,模型剪枝方法试图去除网络中不必要的参数,以减少网络总体的参数数量,一个典型的神经网络剪枝流程通常遵照以下三步:确定权重的重要性、删除不必要的权重和微调网络以恢复精度。

3、然而现有的基于裁剪层或单元的压缩方法存在以下不足,使得对transformer模型效果有限:

4、1.简单裁剪易造成误裁:简单的裁剪模型的层数或单元数较少,很难对模型影响较小的部分进行精确定位,容易裁剪掉对精度影响较大的本文档来自技高网...

【技术保护点】

1.一种基于Attention头重要性的Transformer模型压缩方法,其特征在于,包括:

2.根据权利要求1所述的基于Attention头重要性的Transformer模型压缩方法,其特征在于,所述根据多头Attention组件中的每一Attention头的权重矩阵,获取每一Attention头的重要性评估分数的方法包括:

3.根据权利要求2所述的基于Attention头重要性的Transformer模型压缩方法,其特征在于,所述对多头Attention组件中的每一Attention头的权重矩阵进行L2范数打分的方法包括:

4.根据权利要求3所述...

【技术特征摘要】

1.一种基于attention头重要性的transformer模型压缩方法,其特征在于,包括:

2.根据权利要求1所述的基于attention头重要性的transformer模型压缩方法,其特征在于,所述根据多头attention组件中的每一attention头的权重矩阵,获取每一attention头的重要性评估分数的方法包括:

3.根据权利要求2所述的基于attention头重要性的transformer模型压缩方法,其特征在于,所述对多头attention组件中的每一attention头的权重矩阵进行l2范数打分的方法包括:

4.根据权利要求3所述的基于attention头重要性的transformer模型压缩方法,其特征在于,所述根据l2范数打分的结果,获取每一attention头的重要性评估分数的方法包括:

5.根据权利要求4所述的基于attention头重要性的transformer模型压缩方法,其特征在于,所述根据l2范数打分的结果,获取每一attention头的重要性评估分数的方法还包括:

6.根据权利要求1所述的基于attention头重要性的transformer模型压缩方法,其特征在于,所述对所有attention头按照重要...

【专利技术属性】
技术研发人员:刘汉亮林栋邱述洪
申请(专利权)人:联通广东产业互联网有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1