【技术实现步骤摘要】
一种面向BERT模型的剪枝可视分析方法
[0001]本专利技术涉及计算机数据可视化
,具体指一种面向BERT模型的剪枝可视分析方法。
技术介绍
[0002]2017年,Google团队提出了Transformer模型,摒弃了以往基于RNN结构的序列依赖特性,通过只利用注意力机制完成模型编码器和解码器的构建,增强了数据特征的提取能力,让处于输入序列中的任意单元都能看到输入序列的全局信息。2018年底,基于Transformer架构的编码器堆栈,提出了全新的模型BERT,成功在11项自然语言处理任务上取得最先进的结果。与其他语言表示模型不同,BERT旨在通过联合调节所有层中的上下文来预先训练深度双向表示。针对具体任务,例如问答任务、语言推理和语言翻译,不需要对训练模型做大幅架构修改,仅需要连接一个额外的输出层进行微调,就可以达到优秀的模型结果。
[0003]BERT模型在多种下游任务表现优异,但庞大的模型参数也带来了训练及推理速度过慢的问题,难以满足对实时响应速度要求高的场景,模型压缩就显得非常重要。
技术实现思路
[0004]本专利技术针对现有技术的不足,提出一种面向BERT模型的剪枝可视分析方法,可以通过损失值(loss)和准确度(accuracy)可视化揭示训练过程中模型的优化收敛情况;自注意力头的可视化帮助用户了解模型整体的自注意力头的重要性分数,可作为用户剪枝模型的依据;模型剪枝历史可视化以迭代回溯图的方式整合用户剪枝历史,方便用户对剪枝历史的回溯以及调整剪枝方案。
[00 ...
【技术保护点】
【技术特征摘要】
1.一种面向BERT模型的剪枝可视分析方法,其特征在于,包括如下步骤:S1、训练模型BERT,提取BERT模型结构图,并保存训练结果,所述训练结果包括模型训练损失值、准确度、训练样本原始标签及预测标签、训练样本自注意力值和模型结构图信息;S2、训练结果可视化显示利用流程图可视化模型结构图,利用数据集信息表与降维散点图可视化训练数据集信息,利用折线图可视化模型训练损失值和准确度,利用矩阵图可视化训练样本自注意力值,利用树形层次图可视化模型剪枝历史;S3、利用剪枝可视分析系统组件分析模型剪枝可能性,设置剪枝参数,利用模型剪枝算法精简模型,再进行训练,观察模型各项评估指标;S4、保存剪枝后模型及模型参数,当剪枝模型达到性能指标以及模型参数量达到要求水平,保存剪枝模型及模型参数。2.根据权利要求1所述的面向BERT模型的剪枝可视分析方法,其特征在于,所述步骤S1中提取BERT模型结构图的方法为:S1
‑
1、通过深度学习框架提供的动态图提取api获取动态图graph;S1
‑
2、通过graph.inputs()和graph.nodes()获取动态图节点信息,构建计算图;S1
‑
3、确定需要展示的结构图层级名称,记为NamedSet;S1
‑
4、进行过滤操作,获取计算图节点信息uid,如果包含在NamedSet中,保留节点;否则删除节点,并删除与之连接的边,更新结构图信息;S1
‑
5、迭代更新完成后,获得最终的模型结构图。3.根据权利要求1所述的面向BERT模型的剪枝可视分析方法,其特征在于,所述步骤S2中利用流程图可视化模型结构图的方法为:获取模型结构图后,解析结构图树形数据,以节点流程图方式展示模型内部结构,通过给不同类型的节点设置不同的颜色标识不同的神经网络层。4.根据权利要求1所述的面向BERT模型的剪枝可视分析方法,其特征在于,所述步骤S2中利用数据集信息表与降维散点图可视化训练数据集信息的方法为:训练数据集信息表包含文本实例信息、原始标签和预测标签,可滚动查看信息表中的各个实例信息,进而观察原始标签与预测标签的一致性,若出现大量不一致标签,表明模型训练准确度较低,模型未达到收敛状态,需要调整模型结构或参数进行再训练;同时,训练数据集中降维散点图通过将文本实例降维到二维平面上,以数据点的方式表示实例,以不同颜色标识预测结果,通过降维可视化,用户首先观察降维实例的聚类结果,越相近的数据点表明在二维空间越相似,二维空间的相似性体现了文本实例在高维数据空间的相似性,进而可重点观察不同聚类邻近区域,借此发现预测错误的实例,观察预测错误实例的自注意力分布情况,探索预测错误的可能原因,利用UMAP降维算法进行数据降维,将高维流形特征降维到二维平面,达到聚类特征的目的。5.根据权利要求4所述的面向BERT模型的剪枝可视分析方法,其特征在于,所述UMAP降维算法流程如下:设定n_neighbors=15,规定流形结构局部逼近中相邻点的个数,保留高维空间中数据的全局信息和局部信息;
构建高维连接图,设定local_connectivity=1,保证至少有每个点至少有一条边相连,每个点通过与其他点的距离计算连接确定性,距离越远,连接确定性越小;由于使用了不同距离的方法,会遇到边缘权重不对齐的情况,取两条边的并集进行合并,得到高维连接图;将高维连接图投影到二维平面,设定min_distance=0.1,表示两点之间的最小距离,避免重叠带来的视觉混乱;通过优化函数其中e表示单条边,E表示边集合,c
h
(e)表示高维空间中边的连接确定性,c
l
(e)表示低维空间中边的连接确定性,利用交叉熵优化函数,配合随机梯度下降法找到低维空间中的...
【专利技术属性】
技术研发人员:刘真,孙海波,洪鑫宇,徐岗,吴向阳,徐景胜,颜菁,吴兆国,
申请(专利权)人:杭州电子科技大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。