一种面向BERT模型的剪枝可视分析方法技术

技术编号:36691931 阅读:25 留言:0更新日期:2023-02-27 20:00
本发明专利技术公开了一种面向BERT模型的剪枝可视分析方法,包括如下步骤:训练模型BERT,提取BERT模型结构图,并保存训练结果;训练结果可视化显示;利用剪枝可视分析系统组件分析模型剪枝可能性,设置剪枝参数,利用模型剪枝算法精简模型,再进行训练,观察模型各项评估指标;保存剪枝后模型及模型参数,当剪枝模型达到性能指标以及模型参数量达到要求水平,保存剪枝模型及模型参数。该方法通过可视化的方式展示模型剪枝过程,利用多图可视化分析技术,了解模型训练数据集样本,关注模型训练过程指标变化,发现训练样本自注意力分布情况,有助于加深模型研究人员对模型的了解,帮助研究人员对模型进行剪枝研究,达到降低模型参数量及优化模型的目的。模型的目的。模型的目的。

【技术实现步骤摘要】
一种面向BERT模型的剪枝可视分析方法


[0001]本专利技术涉及计算机数据可视化
,具体指一种面向BERT模型的剪枝可视分析方法。

技术介绍

[0002]2017年,Google团队提出了Transformer模型,摒弃了以往基于RNN结构的序列依赖特性,通过只利用注意力机制完成模型编码器和解码器的构建,增强了数据特征的提取能力,让处于输入序列中的任意单元都能看到输入序列的全局信息。2018年底,基于Transformer架构的编码器堆栈,提出了全新的模型BERT,成功在11项自然语言处理任务上取得最先进的结果。与其他语言表示模型不同,BERT旨在通过联合调节所有层中的上下文来预先训练深度双向表示。针对具体任务,例如问答任务、语言推理和语言翻译,不需要对训练模型做大幅架构修改,仅需要连接一个额外的输出层进行微调,就可以达到优秀的模型结果。
[0003]BERT模型在多种下游任务表现优异,但庞大的模型参数也带来了训练及推理速度过慢的问题,难以满足对实时响应速度要求高的场景,模型压缩就显得非常重要。

技术实现思路

[0004]本专利技术针对现有技术的不足,提出一种面向BERT模型的剪枝可视分析方法,可以通过损失值(loss)和准确度(accuracy)可视化揭示训练过程中模型的优化收敛情况;自注意力头的可视化帮助用户了解模型整体的自注意力头的重要性分数,可作为用户剪枝模型的依据;模型剪枝历史可视化以迭代回溯图的方式整合用户剪枝历史,方便用户对剪枝历史的回溯以及调整剪枝方案。
[0005]为了解决上述技术问题,本专利技术的技术方案为:
[0006]一种面向BERT模型的剪枝可视分析方法,包括如下步骤:
[0007]S1、训练模型BERT,提取BERT模型结构图,并保存训练结果,所述训练结果包括模型训练损失值、准确度、训练样本原始标签及预测标签、训练样本自注意力值和模型结构图信息;
[0008]S2、训练结果可视化显示
[0009]利用流程图可视化模型结构图,利用数据集信息表与降维散点图可视化训练数据集信息,利用折线图可视化模型训练损失值和准确度,利用矩阵图可视化训练样本自注意力值,利用树形层次图可视化模型剪枝历史;
[0010]S3、利用剪枝可视分析系统组件分析模型剪枝可能性,设置剪枝参数,利用模型剪枝算法精简模型,再进行训练,观察模型各项评估指标;
[0011]S4、保存剪枝后模型及模型参数,当剪枝模型达到性能指标以及模型参数量达到要求水平,保存剪枝模型及模型参数。
[0012]作为优选,所述步骤S1中提取BERT模型结构图的方法为:
[0013]S1

1、通过深度学习框架提供的动态图提取api获取动态图graph;
[0014]S1

2、通过graph.inputs()和graph.nodes()获取动态图节点信息,构建计算图;
[0015]S1

3、确定需要展示的结构图层级名称,记为NamedSet。
[0016]S1

4、进行过滤操作,获取计算图节点信息uid,如果包含在NamedSet中,保留节点;否则删除节点,并删除与之连接的边,更新结构图信息;
[0017]S1

5、迭代更新完成后,获得最终的模型结构图。
[0018]作为优选,所述步骤S2中利用流程图可视化模型结构图的方法为:获取模型结构图后,解析结构图树形数据,以节点流程图方式展示模型内部结构,通过给不同类型的节点设置不同的颜色标识不同的神经网络层,用户可清晰了解构建整个模型所需的网络层种类及层数。支持用户放大、缩小和拖拽移动模型结构图,用户可点击自注意力层,查看所选择样本在该层的自注意力信息,选取不同自注意力头查看多头自注意力下文本信息自注意力的分布情况。
[0019]作为优选,所述步骤S2中利用数据集信息表与降维散点图可视化训练数据集信息的方法为:训练数据集信息表包含文本实例信息、原始标签和预测标签,可滚动查看信息表中的各个实例信息,进而观察原始标签与预测标签的一致性,若出现大量不一致标签,表明模型训练准确度较低,模型未达到收敛状态,需要调整模型结构或参数进行再训练;
[0020]同时,训练数据集中降维散点图通过将文本实例降维到二维平面上,以数据点的方式表示实例,以不同颜色标识预测结果,通过降维可视化,用户首先观察降维实例的聚类结果,越相近的数据点表明在二维空间越相似,二维空间的相似性体现了文本实例在高维数据空间的相似性,进而可重点观察不同聚类邻近区域,借此发现预测错误的实例,观察预测错误实例的自注意力分布情况,探索预测错误的可能原因,利用UMAP降维算法进行数据降维,将高维流形特征降维到二维平面,达到聚类特征的目的。
[0021]作为优选,所述UMAP降维算法流程如下:
[0022]设定n_neighbors=15,规定流形结构局部逼近中相邻点的个数,保留高维空间中数据的全局信息和局部信息;
[0023]构建高维连接图,设定local_connectivity=1,保证至少有每个点至少有一条边相连,每个点通过与其他点的距离计算连接确定性,距离越远,连接确定性越小;
[0024]由于使用了不同距离的方法,会遇到边缘权重不对齐的情况,取两条边的并集进行合并,得到高维连接图;
[0025]将高维连接图投影到二维平面,设定min_distance=0.1,表示两点之间的最小距离,避免重叠带来的视觉混乱。
[0026]通过优化函数其中e表示单条边,E表示边集合,c
h
(e)表示高维空间中边的连接确定性,c
l
(e)表示低维空间中边的连接确定性,利用交叉熵优化函数,配合随机梯度下降法找到低维空间中的最优连接确定性,得到低维空间的连接图。
[0027]作为优选,所述步骤S2中利用折线图可视化模型训练损失值和准确度的方法为:通过折线图的方式展示模型训练过程和测试过程中的损失值和准确度,其中x轴表示训练step数,双y轴表示损失值和准确度,通过观察两条折线的变化趋势,确定模型是否达到收
敛状态,如果出现损失值升高或者周期性变化,则认为模型训练不合理,需要调整模型结构并模型参数重新训练;通过下拉框选择train、test进行切换数据集切换,训练集用于模型拟合的数据样本,用来训练网络中的参数,测试集用于评估最终模型的泛化能力,进而决定是否能应用到具体任务上。
[0028]作为优选,所述步骤S2中利用矩阵图可视化训练样本自注意力值的方法为:自注意力头的可视化以矩阵图的形式可视化BERT模型中每个自注意力层中每个自注意力头的重要性分数,重要性分数较低的头将在剪枝流程中被删除,降低模型的参数量,通过点击每个自注意力头查看每个自注意力头产生的自注意力矩阵,观察每个输入样本在不同的自注意力头所产生的自注意力分布,如果分布均匀,说明该自注意力头没有捕捉到有效信息,在本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种面向BERT模型的剪枝可视分析方法,其特征在于,包括如下步骤:S1、训练模型BERT,提取BERT模型结构图,并保存训练结果,所述训练结果包括模型训练损失值、准确度、训练样本原始标签及预测标签、训练样本自注意力值和模型结构图信息;S2、训练结果可视化显示利用流程图可视化模型结构图,利用数据集信息表与降维散点图可视化训练数据集信息,利用折线图可视化模型训练损失值和准确度,利用矩阵图可视化训练样本自注意力值,利用树形层次图可视化模型剪枝历史;S3、利用剪枝可视分析系统组件分析模型剪枝可能性,设置剪枝参数,利用模型剪枝算法精简模型,再进行训练,观察模型各项评估指标;S4、保存剪枝后模型及模型参数,当剪枝模型达到性能指标以及模型参数量达到要求水平,保存剪枝模型及模型参数。2.根据权利要求1所述的面向BERT模型的剪枝可视分析方法,其特征在于,所述步骤S1中提取BERT模型结构图的方法为:S1

1、通过深度学习框架提供的动态图提取api获取动态图graph;S1

2、通过graph.inputs()和graph.nodes()获取动态图节点信息,构建计算图;S1

3、确定需要展示的结构图层级名称,记为NamedSet;S1

4、进行过滤操作,获取计算图节点信息uid,如果包含在NamedSet中,保留节点;否则删除节点,并删除与之连接的边,更新结构图信息;S1

5、迭代更新完成后,获得最终的模型结构图。3.根据权利要求1所述的面向BERT模型的剪枝可视分析方法,其特征在于,所述步骤S2中利用流程图可视化模型结构图的方法为:获取模型结构图后,解析结构图树形数据,以节点流程图方式展示模型内部结构,通过给不同类型的节点设置不同的颜色标识不同的神经网络层。4.根据权利要求1所述的面向BERT模型的剪枝可视分析方法,其特征在于,所述步骤S2中利用数据集信息表与降维散点图可视化训练数据集信息的方法为:训练数据集信息表包含文本实例信息、原始标签和预测标签,可滚动查看信息表中的各个实例信息,进而观察原始标签与预测标签的一致性,若出现大量不一致标签,表明模型训练准确度较低,模型未达到收敛状态,需要调整模型结构或参数进行再训练;同时,训练数据集中降维散点图通过将文本实例降维到二维平面上,以数据点的方式表示实例,以不同颜色标识预测结果,通过降维可视化,用户首先观察降维实例的聚类结果,越相近的数据点表明在二维空间越相似,二维空间的相似性体现了文本实例在高维数据空间的相似性,进而可重点观察不同聚类邻近区域,借此发现预测错误的实例,观察预测错误实例的自注意力分布情况,探索预测错误的可能原因,利用UMAP降维算法进行数据降维,将高维流形特征降维到二维平面,达到聚类特征的目的。5.根据权利要求4所述的面向BERT模型的剪枝可视分析方法,其特征在于,所述UMAP降维算法流程如下:设定n_neighbors=15,规定流形结构局部逼近中相邻点的个数,保留高维空间中数据的全局信息和局部信息;
构建高维连接图,设定local_connectivity=1,保证至少有每个点至少有一条边相连,每个点通过与其他点的距离计算连接确定性,距离越远,连接确定性越小;由于使用了不同距离的方法,会遇到边缘权重不对齐的情况,取两条边的并集进行合并,得到高维连接图;将高维连接图投影到二维平面,设定min_distance=0.1,表示两点之间的最小距离,避免重叠带来的视觉混乱;通过优化函数其中e表示单条边,E表示边集合,c
h
(e)表示高维空间中边的连接确定性,c
l
(e)表示低维空间中边的连接确定性,利用交叉熵优化函数,配合随机梯度下降法找到低维空间中的...

【专利技术属性】
技术研发人员:刘真孙海波洪鑫宇徐岗吴向阳徐景胜颜菁吴兆国
申请(专利权)人:杭州电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1