基于FPGA的硬件感知可微分BERT层头剪枝方法技术

技术编号：36194320 阅读：26 留言：0更新日期：2022-12-31 21:17

本发明专利技术公开了一种基于FPGA的硬件感知可微分BERT层头剪枝方法。其包括以下步骤：引入可微分NAS的思路，为预训练好的BERT模型的每一个编码层，每一个注意力头，每一个前馈神经网络FFN维度均设置一个架构参数；对单层BERT模型进行仿真，得到四个模块的时延和功耗结果；计算单维子模块对应的时延L

全部详细技术资料下载

【技术实现步骤摘要】
基于FPGA的硬件感知可微分BERT层头剪枝方法

[0001]本专利技术涉及BERT层头剪枝
，特别涉及一种基于FPGA的硬件感知可微分BERT层头剪枝方法。

技术介绍

[0002]基于Transformer的预训练模型如BERT和RoBerta已经被广泛应用于自然语言处理(NLP)任务中，这类模型利用注意力机制，有效地分析了序列信息之间的依赖关系。然而，这些模型通常有大量的参数，导致较大的推理延迟和内存占用，现有的基于Transformer的模型剪枝方法可分为两大类：非结构化剪枝和结构化剪枝。在非结构化剪枝中，通过将单个权重设置为0来去除它们的影响。但这种剪枝算法往往会产生稀疏的权值矩阵，使其在硬件部署前还需要对这些稀疏矩阵进行进一步的优化处理。而结构剪枝则会去除完整的模型结构块，如神经元、权重矩阵块、注意力头或完整的编码解码层。
[0003]神经网络架构搜索(NerualArchitectureSearch，NAS)是一种自动查找最佳模型体系结构的方法，一般由搜索空间、搜索策略和性能评价策略三部分组成。搜索空间预先定义了可以被发现的模型架构，搜索策略从搜索空间中选择候选架构，性能评估策略对候选体系结构进行评估，并反馈给搜索策略，使在下一次迭代时可以做出更好的选择，目前，常用的搜索策略主要基于强化学习、进化学习，或基于梯度的可微分搜索方法。基于强化学习和进化学习的方法十分耗时，一次搜索需要持续数十甚至数百个GPU天，单一的剪枝策略。基于Transformer模型的主流结构剪枝方法通常是仅仅对注意力头剪...

【技术保护点】

【技术特征摘要】
1.一种基于FPGA的硬件感知可微分BERT层头剪枝方法，其特征在于：包括以下步骤：S1：引入可微分NAS的思路，为预训练好的BERT模型的每一个编码层，每一个注意力头，每一个前馈神经网络FFN维度分别设置一个架构参数α；S2：对预训练好的BERT模型中的单层进行仿真，得到单层BERT模型中四个模块的时延和功耗的综合结果；所述四个模块为嵌入模块、注意力模块、前馈神经网络FFN模块和最终的池化模块，这四个模块分别代表预训练好的BERT模型中的嵌入层、注意力层、前馈网络FFN层和最终池化层；S3：将S2中仿真得到的四个模块的时延和功耗分别除以预训练好的BERT模型中四个模块对应的维数，得出单维子模块对应的时延分数Ls和功耗分数Ps，其中，预训练好的待剪枝的BERT模型中嵌入模块、注意力模块、最终的池化快的维数为隐藏层维数，FFN前馈神经网络模块的维数为FFN中间层维数；S4：通过四个单维子模块的Ls分数和Ps分数，计算搜索到的引入架构参数α的BERT模型的用于硬件感知的推理时延评估分数Lf和推理功耗评估分数Pf：的用于硬件感知的推理时延评估分数Lf和推理功耗评估分数Pf：其中：layer表示层数，Ls
‑
1、Ls
‑
2、Ls
‑
3、Ls
‑
4是四个单维子模块的时延分数，Ps
‑
1、Ps
‑
2、Ps
‑
3、Ps
‑
4是四个单维子模块的功耗分数，N1和N2分别是搜索到的引入架构参数α的BERT模型的隐藏层尺寸和FFN中间层尺寸；S5：训练更新引入架构参数α的BERT模型的权重和架构参数α，最小化模型完整的损失函数L，损失函数L包括交叉熵损失函数L
ce
，L
f
分数、P
f
分数和损失函数L0‑1：L＝L
ce
+L
f
+P
f
+L0‑1其中：损失函数L0
‑...

【专利技术属性】
技术研发人员：白玥寅，王堃，俞军，
申请(专利权)人：复旦大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人