当前位置: 首页 > 专利查询>浙江大学专利>正文

一种基于注意力特征信息的BERT模型融合方法技术

技术编号:33706707 阅读:20 留言:0更新日期:2022-06-06 08:30
本发明专利技术公开了一种基于注意力特征信息的BERT模型融合方法,该方法利用每个原模型对输入文本的隐藏表示信息,来计算每个原模型的权重,然后利用每个原模型的权重信息,对原模型的注意力特征信息进行加权融合,最后利用融合后的注意力特征信息对新模型进行调整,提高新模型的表现效果。该方法可以充分利用BERT模型的注意力特征信息,提高融合后BERT模型的表现效果。相比于其他融合方法,本方法可以有效地完善融合后模型的注意力特征信息,使得融合后的模型对文本的注意力特征更加完整,进而提高融合后模型的表现效果。融合后模型的表现效果。融合后模型的表现效果。

【技术实现步骤摘要】
一种基于注意力特征信息的BERT模型融合方法


[0001]本专利技术涉及BERT模型复用和BERT模型融合领域,尤其是涉及了一种基于注意力特征信息的BERT模型融合方法。

技术介绍

[0002]BERT模型融合是一项重要的模型融合任务,其目的在于对多个单任务上微调好的BERT 模型进行融合和复用,生成一个可以在多任务表现良好的新BERT模型。
[0003]目前的模型融合方法多是集中于图像识别领域和卷积网络,而对于自然语言处理和BERT 模型融合的方法相对较少,这些方法往往并不能充分地利用原有BERT模型的特征信息,所以融合后的BERT模型并不能达到较好的表现效果。
[0004]目前BERT模型复用方法多集中于单个BERT模型的知识蒸馏与复用,侧重于对原有模型的压缩,没有考虑对多个BERT模型之间的特征融合,更没有考虑对BERT新模型多任务处理能力的提升。

技术实现思路

[0005]本专利技术的目的在于针对现有BERT模型融合技术的不足,提出了一种基于注意力特征信息的BERT模型融合方法,本专利技术可以完善融合后BERT模型的注意力特征信息,提高融合后模型的表现效果。
[0006]本专利技术的目的是通过以下技术方案来实现的:一种基于注意力特征信息的BERT模型融合方法,该方法的具体步骤如下:
[0007](1)首先,对于给定的多个原模型,构建出每个模型对于输入文本的隐藏表示信息,用来表征对应模型对于输入文本的编码信息。
[0008](2)然后,利用每个原模型的隐藏表示信息与输入文本的特征信息的差异,来计算每个模型的权重信息。
[0009](3)之后,利用每个原模型的权重信息,对模型内部的注意力特征信息进行加权融合,生成融合后的注意力特征信息。
[0010](4)最后,利用融合后的注意力特征信息,来完成新模型的训练,生成表现效果更好和泛化能力更强的新模型。
[0011]本专利技术具有的有益效果是:本专利技术基于注意力特征信息的BERT模型融合方法,对融合后BERT模型的注意力特征信息进行了完善,生成表现效果更好并且泛化能力更强的新BERT 模型。新模型可以在对应任务上代替对应的原模型,拥有更强的泛化能力,相比于原模型,更适合于相对复杂的应用场景。
附图说明
[0012]图1是本专利技术具体实施步骤流程图;
[0013]图2是本专利技术提出的BERT模型融合方法模块图。
具体实施方式
[0014]为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述。显然,所述实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的其他实施例,都属于本专利技术的保护范围。
[0015]本专利技术针对BERT模型融合任务,利用无标注数据,对多个原BERT模型的注意力特征信息进行融合,生成表现效果和泛化能力更好的新BERT模型。
[0016]如图1所示,本专利技术的具体实施过程和工作原理如下:
[0017]1.准备原模型,利用不同任务上的标注数据对BERT模型进行微调,得到不同任务上微调后的BERT模型,作为原模型。
[0018]2.准备融合过程需要的无标注数据,这些无标注数据在后续融合过程中,用于对原模型特征信息的获取。
[0019]3.使用图2所示的方法对原模型进行融合,生成一个表现效果和泛化能力更强的新模型。其中T
i
代表教师模型,S代表学生模型,H
x
代表教师模型的隐藏层特征信息,A
x
代表教师模型的注意力特征信息,P
x
代表教师模型的响应知识信息。本专利技术提出的BERT模型融合方法主要分为三个部分,分别是动态权重计算,教师注意力融合,以及学生模型训练。
[0020](1)动态权重计算,主要是利用教师模型隐式表示因子F
T
和学生模型输出的隐藏层特征信息H
S
,来计算每个教师模型的权重信息。其输入是每个教师模型隐式表示因子F
T
和学生模型最后一层Transformer输出的隐藏层特征H
S
。其输出是每个教师模型的权重信息W
T
。权重计算过程如下:首先通过计算教师模型隐式表示因子F
T
与学生模型隐藏层表示特征H
S
之间的均方差函数值(Mean Squared Error,MSE),来获取到每个教师模型对应的重要程度,其中均方差函数值越大,则对应的教师模型权重越小。之后再利用softmax函数对每个教师模型的重要程度进行归一化,得到最终每个教师模型对应的权重信息W
T

[0021](2)教师注意力融合,主要是利用教师模型权重来对教师模型的注意力特征进行融合,同时也对隐藏层特征信息和响应知识信息进行了融合。其输入是教师模型最后一层 Transformer输出的注意力特征A
T
和隐藏层特征H
T
,教师模型输出的响应知识P
T
,以及动态权重计算所得到的教师模型的权重信息W
T
;其输出是融合后的注意力特征A
M
,融合后的隐藏层特征H
M
,以及融合后的响应知识P
M
。注意力融合的计算过程,主要是利用每个教师模型的权重信息,对不同教师的注意力特征进行加权平均。而隐藏层特征融合和响应知识融合的计算过程同样是利用加权平均的方法来进行融合。
[0022](3)学生模型训练,则主要是利用融合后的教师模型知识来对学生模型进行训练和调整。其输入是融合后的教师模型知识(A
M
,H
M
,P
M
)和学生模型的输出(A
S
,H
S
,P
S
),其输出是学生模型参数θ和教师模型隐式表示因子F
T
。学生模型训练,主要是针对三类不同的知识计算损失函数,并根据最终的损失函数,来对学生模型参数和教师模型隐式表示因子进行调整。三类损失函数分别是注意力特征损失函数Loss
A
,隐藏层特征损失函数Loss
H
和响应知识损失函数Loss
P
,其中注意力特征的损失函数采用KL散度来计算,隐藏层特征的损失函数采用均方差函数计算,响应知识的损失函数采用交叉熵(Cross Entropy,CE)来计算。之后利用这三类损失函数来计算最终的损失函数Loss,最终损失函数主要采用加权和的方式来计算。最后利用损失函数结果,来更新学生模型参数θ和隐式表示因子F
T

[0023]4.对新模型进行评估和测试。我们在GLUE数据集上进行了实验,结果表明,我们的注意力特征融合方法相比于直接融合和特征融合方法,在准确率上平均提升0.70个百本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于注意力特征信息的BERT模型融合方法,其特征在于,该方法的具体步骤如下:(1)首先,对于给定的多个原模型,构建出每个模型对于输入文本的隐藏表示信息,用来表征对应模型对于输入文本的编码信息;(2)然后,利用每个原模型的隐藏表示信息与输入文本的特征信息的差异,来计算每个模型的权重信息;(3)之后,利用每个原模型的权重信息,对模型内部的注意力特征信息进行加权融合,生成融合后的注意力特征信息;(4)最后,利用融合后的注意力特征信息,来完成新模型的训练,生成表现效果更好和泛化能力更强的新模型;步骤(1)给定的原模型为教师模型,用T
i
表示;步骤(4)生成的新模型为学生模型,用S表示;H
x
代表教师模型的隐藏层表示信息,A
x
代表教师模型的注意力特征信息,P
x
代表教师模型的响应知识信息;所述步骤(2)中,利用教师模型隐式表示因子F
T
和学生模型输出的隐藏层特征信息H
S
,来计算每个教师模型的权重信息;其输入是每个教师模型隐式表示因子F
T
和学生模型最后一层Transformer输出的隐藏层特征H
S
;其输出是每个教师模型的权重信息W
T
;权重计算过程如下:首先通过计算教师模型隐式表示因子F
T
与学生模型隐藏层表示特征H
S
之间的均方差函数值,来获取到每个教师模型对应的重要程度,其中均方差函数值越大,则对应的教师模型权重越小;之后再利用softmax函数对每个教师模型的重要程度进行归一化,得到最终每个教师模型对应的权重信息W
T
;所述步骤(3)中,利用步骤(2)获得的每个教师模型对应的权重信息W
T
来对教师模型的注意力特征信息进行...

【专利技术属性】
技术研发人员:陈珂杨浩磊寿黎但胡天磊陈刚江大伟骆歆远
申请(专利权)人:浙江大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1