一种基于Transformer自注意力的可视分析方法及装置制造方法及图纸

技术编号:39276111 阅读:9 留言:0更新日期:2023-11-07 10:53
本发明专利技术公开了一种基于Transformer自注意力的可视分析方法及装置。本发明专利技术通过可视分析图表了解深度学习模型的训练层及注意力头的自注意力的整体分布情况及统计规律,并可通过数据链接图和矩阵图具体训练样本查看自注意力在实例中的联系情况;计算机视觉领域的注意力可视分析揭示在训练任务中像素块之间的相互关注性,通过全局归一化和局部归一化两种方式查看不同层和头之间的自注意力分布情况,获得下游任务得出结果的过程。通过本发明专利技术,研究人员利用统计分析图表,可直观地观察Transformer模型内部注意力头的值分布情况,选择感兴趣的注意力头。且通过具体的单个注意力头可视化,研究人员可以分析注意力头在具体任务中所发挥的作用,帮助研究人员改进优化模型。型。型。

【技术实现步骤摘要】
一种基于Transformer自注意力的可视分析方法及装置


[0001]本专利技术涉及计算机数据可视化领域,具体涉及一种基于Transformer自注意力的可视分析方法及装置。

技术介绍

[0002]近年来,基于Transformer的模型的兴起为许多自然语言处理任务和计算机视觉任务带来了显着的性能提升,特别是自然语言处理领域的BERT模型和计算机视觉领域的ViT模型,在多项任务上取得了最先进的成果。在自然语言处理领域,在大规模语料库上预训练的基于Transformer的模型可以有效地针对各种下游任务进行微调,例如情感分析、问答和文本总结;在计算机视觉领域,Transformer被用来图像分类、目标检测、语义分割和视频理解等任务,由于其卓越的性能,基于Visual Transformer的模型已成为处理视觉任务的一个主流研究方向。但是,了解这些模型学到了什么以及为什么它们成功和失败,对于研究人员开发更好的模型至关重要,同时对于决策者信任这些模型至关重要,这是一个面临严峻挑战的问题。
[0003]交互式可视化和可视分析技术的发展给研究人员带来了研究模型工作机理的新方法,通过各种可视分析图表分析模型训练产生的数据,用户可以发现数据内部的一些表现模式,并且用户可以进行探索和分析,通过图表间的联动分析,用户可以更进一层的了解复杂深度学习模型的内部原理。
[0004]综上所述,为了帮助研究人员更好的了解基于Transformer的模型的内部自注意力机制的工作原理,以及为什么会产生成功和失败的预测结果,通过可视分析的方法是目前比较可行的方法。

技术实现思路

[0005]针对现有技术的不足,本专利技术提供了一种基于Transformer自注意力的可视分析方法及装置。为了帮助研究人员更好的理解Transformer模型的内部自注意力机制,本专利技术针对于文本Transformer以及图像Transformer模型设计了多种可视分析方法,展现自注意力内部联系,统计总结变化规律,加深研究人员对模型的可解释性的理解。
[0006]本专利技术第一方面,一种基于Transformer自注意力的可视分析方法,该方法包括以下步骤:
[0007](1)模型训练:用户利用自己构建的模型进行训练;
[0008](2)数据获取:用户利用提供的api接口保存模型在训练过程中产生的自注意力数据及原始输入数据;
[0009](3)日志写入:利用用户保存的模型训练数据,将其改写为系统所能解析的日志数据格式,将其馈入到可视分析系统中得到可视分析结果;
[0010](4)结果分析:用户查看可视分析系统获得的可视分析结果,通过多维度的可视分析图表,以及与图表的交互联动,逐步分析模型结果,探索模型内部自注意力机制。
[0011]进一步地,所述步骤(3)中可视分析系统中得到可视分析结果,具体为:
[0012]可视分析系统对数据的分析有自然语言处理领域注意力可视分析和对计算机视觉领域注意力可视分析两种;
[0013]所述自然语言处理领域的注意力可视分析包括统计信息表、统计信息图和注意力可视化三大组件,通过可视分析图表了解深度学习模型的训练层及注意力头的自注意力的整体分布情况及统计规律,同时通过数据链接图和矩阵图具体训练样本查看自注意力在实例中的联系情况;
[0014]所述计算机视觉领域的注意力可视分析用于表示在训练任务中像素块之间的相互关注性,通过全局归一化和局部归一化两种方式查看不同层和头之间地注意力分布情况,获得下游任务是如何得出相应结果的数据。
[0015]进一步地,所述对于自然语言处理领域注意力可视分析,具体为:
[0016](2.1)采用统计信息表地形式展示模型所有训练层和注意力头的自注意力整体情况,用户可通过最大值max、最小值min、四分位差quar以及方差vari不同统计指标进行排序查看;
[0017](2.2)同时提供统计信息图的形式展示自注意力信息,以旭日图的形式排列各训练层和各注意力头的自注意力信息,柱形图的起始位置编码注意力头的自注意力最大值、最小值特征,颜色编码方差特征,鼠标在相应注意力头上悬停,可显示每个注意力头的具体信息;
[0018](2.3)同时旭日图支持多种过滤操作,自主选择不同的过滤标准,用户能够发现感兴趣或者自注意力异常的注意力头,在单个注意力头自注意力可视分析图表中探索原因;在用户选定单个注意力头后,提供两种可视分析图表展示各个头内部关于输入字符的自注意力分布。
[0019]进一步地,所述步骤(2.3)中单个注意力头的自注意力计算过程如下:
[0020](2.3.1)将输入文本编码成向量形式,X=[X1,X2,

,X
N
],X∈R
N
×
D
,N为输入字符数,D为向量维度;
[0021](2.3.2)位置编码position encoding信息,编码为t=[t1,t2,

,t
N
],t∈R
N
×
D
,X和t相加,将携带位置信息的编码向量X馈入模型编码层;
[0022](2.3.3)在模型编码层中,通过线性变换,查询向量序列Q,键向量序列K和值向量序列V:
[0023]Q=W
Q
X,K=W
K
X,V=W
V
X;
[0024]其中,W
Q
,W
K
,W
V
为对应的线性变换矩阵;
[0025](2.3.4)自注意力模型中,通常使用缩放点积来作为注意力打分函数,输出自注意力如下:
[0026][0027]输出自注意力向量Z=[Z1,Z2,

,Z
N
],Z
i
∈R1×
N
,i∈[1,N],Z
i
的每一项代表第i个字符对于其他字符的自注意力大小,将其输入到颜色映射函数colorProject,得到颜色映射分数矩阵C,用于数据链接图及矩阵图的绘制。
[0028]进一步地,所述数据链接图绘制步骤如下:
[0029](5.1)输入注意力数据Z,计算长度Len;
[0030](5.2)计算数据链接图大小,宽度为TextBoxWidth*2+AttentionWidth,高度为TextBoxHeight*Len;
[0031](5.3)利用注意力矩阵Z,确定各个字符之间的对应数量关系,计算连线offset;
[0032](5.4)利用颜色映射分数矩阵C,结合对应的位置关系,确定对应连线颜色;
[0033](5.5)绘制数据链接图。
[0034]进一步地,所述矩阵图绘制步骤如下:
[0035](6.1)输入注意力数据Z,计算长度Len;
[0036](6.2)计算矩阵图大小,宽度为MatrixBo本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于Transformer自注意力的可视分析方法,其特征在于,该方法包括以下步骤:(1)模型训练:用户利用自己构建的模型进行训练;(2)数据获取:用户利用提供的api接口保存模型在训练过程中产生的自注意力数据及原始输入数据;(3)日志写入:利用用户保存的模型训练数据,将其改写为系统所能解析的日志数据格式,将其馈入到可视分析系统中得到可视分析结果;(4)结果分析:用户查看可视分析系统获得的可视分析结果,通过多维度的可视分析图表,以及与图表的交互联动,逐步分析模型结果,探索模型内部自注意力机制。2.根据权利要求1所述的基于Transformer自注意力的可视分析方法,其特征在于,所述步骤(3)中可视分析系统中得到可视分析结果,具体为:可视分析系统对数据的分析有自然语言处理领域注意力可视分析和对计算机视觉领域注意力可视分析两种;所述自然语言处理领域的注意力可视分析包括统计信息表、统计信息图和注意力可视化三大组件,通过可视分析图表了解深度学习模型的训练层及注意力头的自注意力的整体分布情况及统计规律,同时通过数据链接图和矩阵图具体训练样本查看自注意力在实例中的联系情况;所述计算机视觉领域的注意力可视分析用于表示在训练任务中像素块之间的相互关注性,通过全局归一化和局部归一化两种方式查看不同层和头之间地注意力分布情况,获得下游任务是如何得出相应结果的数据。3.根据权利要求2所述的基于Transformer自注意力的可视分析方法,其特征在于,所述对于自然语言处理领域注意力可视分析具体为:(2.1)采用统计信息表地形式展示模型所有训练层和注意力头的自注意力整体情况,用户可通过最大值max、最小值min、四分位差quar以及方差vari不同统计指标进行排序查看;(2.2)同时提供统计信息图的形式展示自注意力信息,以旭日图的形式排列各训练层和各注意力头的自注意力信息,柱形图的起始位置编码注意力头的自注意力最大值、最小值特征,颜色编码方差特征,鼠标在相应注意力头上悬停,可显示每个注意力头的具体信息;(2.3)同时旭日图支持多种过滤操作,自主选择不同的过滤标准,用户能够发现感兴趣或者自注意力异常的注意力头,在单个注意力头自注意力可视分析图表中探索原因;在用户选定单个注意力头后,提供两种可视分析图表展示各个头内部关于输入字符的自注意力分布。4.根据权利要求3所述的基于Transformer自注意力的可视分析方法,其特征在于,所述步骤(2.3)中单个注意力头的自注意力计算过程如下:(2.3.1)将输入文本编码成向量形式,X=[X1,X2,

,X
N
],X∈R
N
×
D
,N为输入字符数,D为向量维度;(2.3.2)位置编码position encoding信息,编码为t=[t1,t2,

,t
N
],t∈R
N
×
D
,X和t相加,将携带位置信息的编码向量X馈入模型编码层;
(2.3.3)在模型编码层中,通过线性变换,查询向量序列Q,键向量序列K和值向量序列V:Q=W
Q
X,K=W
K
X,V=W
V
X;其中,W
Q
,W
K
,W
V
为对应的线性变换矩阵;(2.3.4)自注意力模型中,通常使用缩放点积来作为注意力打分函数,输出自注意力如下:输出自注意力向量Z=[Z1,Z2,

,Z
N
],Z
i
∈R1×
N
,i∈[1,N],Z
i
的每一项代表第i个字符对于其他字符的自注意力大小,将其输入到颜色映射函数colorProject,得到颜色映射分数矩阵C,用于数据链接图及矩阵图的绘制。5.根据权利要求4所述的基于Transformer自注意力的可视分析方法,其特征在于,所述数据链接图绘制步骤如下:(5.1)输入注意力数据Z,计...

【专利技术属性】
技术研发人员:俞再亮裘云蕾潘淑吴向阳刘真徐岗孙海波林裕皓高飞
申请(专利权)人:杭州电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1