当前位置: 首页 > 专利查询>山东大学专利>正文

基于注意力引导机制的预训练语言模型的微调方法及系统技术方案

技术编号:34620341 阅读:23 留言:0更新日期:2022-08-20 09:27
本公开提供了一种基于注意力引导的预训练语言模型的微调方法及系统,其属于预训练语言模型的微调技术领域,所述方案包括:获取待微调的预训练语言模型以及目标任务样本集;基于所述预训练语言模型对样本集中的样本进行编码,获得样本向量表示及其对应的注意力矩阵;基于获得样本向量,以最小化构建的目标损失函数为目标对所述预训练语言模型进行微调,获得训练好的特定目标任务模型;其中,所述目标损失函数包括目标任务损失函数以及注意力头可辩别引导项或注意力模式去相关引导;所述方案在微调阶段不使用额外信息的情况下引导自注意力机制,有效提高下游任务的性能。有效提高下游任务的性能。有效提高下游任务的性能。

【技术实现步骤摘要】
基于注意力引导机制的预训练语言模型的微调方法及系统


[0001]本公开属于预训练语言模型的微调
,尤其涉及一种基于注意力引导的预训练语言模型的微调方法及系统。

技术介绍

[0002]本部分的陈述仅仅是提供了与本公开相关的
技术介绍
信息,不必然构成在先技术。
[0003]预训练的语言模型(Pretrained Language Model,PLM)在广泛的下游任务中带来了巨大的性能提升,包括机器翻译、文本分类、文档排名等。预训练语言模型的核心组件是自注意力机制,它允许模型捕获输入数据的远程依赖信息。
[0004]专利技术人发现,当前许多研究都集中于分析自注意机制,即注意力的权重和连接,以解释网络或揭示预训练模型的特性。这些探索性工作存在一个普遍现象,即尽管自注意机制取得了成功,但这些语言模型仅表现出简单的注意力模式;有研究发现预训练语言模型中大部分的注意力连接根本不需要学习,因为预训练模型中学习到的大多数自注意模式只是反映了上下文信息的位置编码。同时,已有研究证实通过引入各种信息可以提高自注意力的有效性,如单词之间的相似度、输入样本的句法信息等,但是,由于这些方法修改了自注意力的计算过程,因此它们必须从头开始重新训练一个新的预训练语言模型。众所周知,使用大量数据从头开始训练一个预训练语言模型将花费大量的计算资源和时间。此外,提取额外的信息,如句法结构,也将进一步增加计算负担。

技术实现思路

[0005]本公开为了解决上述问题,提供了一种基于注意力引导的预训练语言模型的微调方法及系统,所述方案基于设计的注意力头可辩别引导和注意模式去相关引导方法,能够在微调阶段不使用额外信息的情况下引导自注意力机制,有效提高了下游任务的性能。
[0006]根据本公开实施例的第一个方面,提供了一种基于注意力引导的预训练语言模型的微调方法,包括:
[0007]获取待微调的预训练语言模型以及目标任务样本集,其中,所述预训练语言模型为基于通用数据集预先训练的采用多层多头注意力机制的神经网络模型;
[0008]基于所述预训练语言模型对样本集中的样本进行编码,获得样本向量表示及其对应的注意力矩阵;
[0009]基于获得样本向量,以最小化构建的目标损失函数为目标对所述预训练语言模型进行微调,获得训练好的特定目标任务模型;其中,所述目标损失函数包括目标任务损失函数以及注意力头可辩别引导项;所述注意力头可辩别引导项的目标函数基于softmax得到,其将所述注意力矩阵的每行表示为一个注意力向量,每个注意力向量对应不同的类别,基于最大化每个注意力向量分配到不同类别的联合概率进行注意力头可辩别引导项的构建。
[0010]进一步的,所述目标损失函数包括目标任务损失函数以及注意模式去相关引导
项。
[0011]进一步的,所述注意模式去相关引导项,具体为:将上所述注意力矩阵的每一列作为不同注意力模式的向量表示;基于所述注意力矩阵计算互相关矩阵,通过最小化互相关矩阵到单位矩阵的距离,构建所述注意模式去相关引导项。
[0012]进一步的,所述注意模式去相关引导项,具体表示为:
[0013][0014]其中,M为是所护注意力矩阵,I为单位矩阵,表示2

范数的平方,M
T
M∈R
L
×
L
为不同注意力模式的互相关矩阵。
[0015]进一步的,所述注意力头可辩别引导项,具体表示如下:
[0016][0017]其中,m为注意力向量,表示所述注意力矩阵的某一行,τ控制分布的温度参数,N
l
和N
h
分别为所述注意力矩阵行数和列数;i为注意力向量属于的类别。
[0018]进一步的,所述目标损失函数包括目标任务损失函数、注意力头可辩别引导项以及注意模式去相关引导项。
[0019]根据本公开实施例的第二个方面,提供了一种基于注意力引导的预训练语言模型的微调系统,包括:
[0020]数据获取单元,其用于获取待微调的预训练语言模型以及目标任务样本集,其中,所述预训练语言模型为基于通用数据集预先训练的采用多层多头注意力机制的神经网络模型;
[0021]编码单元,其用于基于所述预训练语言模型对样本集中的样本进行编码,获得样本向量表示及其对应的注意力矩阵;
[0022]微调单元,其用于基于获得样本向量,以最小化构建的目标损失函数为目标对所述预训练语言模型进行微调,获得训练好的特定目标任务模型;其中,所述目标损失函数包括目标任务损失函数以及注意力头可辩别引导项;所述注意力头可辩别引导项的目标函数基于softmax得到,其将所述注意力矩阵的每行表示为一个注意力向量,每个注意力向量对应不同的类别,基于最大化每个注意力向量分配到不同类别的联合概率进行注意力头可辩别引导项的构建。
[0023]根据本公开实施例的第三个方面,提供了一种电子设备,包括存储器、处理器及存储在存储器上运行的计算机程序,所述处理器执行所述程序时实现所述的一种基于注意力引导的预训练语言模型的微调方法。
[0024]根据本公开实施例的第四个方面,提供了一种非暂态计算机可读存储介质,其上
存储有计算机程序,该程序被处理器执行时实现所述的一种基于注意力引导的预训练语言模型的微调方法。
[0025]与现有技术相比,本公开的有益效果是:
[0026](1)本公开所述方案提供了一种基于注意力引导的预训练语言模型的微调方法及系统,所述方案基于设计的注意力头可辩别引导和注意模式去相关引导方法,能够在微调阶段不使用额外信息的情况下引导自注意力机制,有效提高了下游任务的性能。
[0027](2)所述方案基于注意力引导机制,通过明确鼓励多个注意力头和注意力模式之间的多样性,来提高预训练语言模型的性能。具体而言,提出了两种注意力引导方法,即注意力头可判别引导和注意力模式去相关引导;前者用于鼓励注意力通过不同的注意力头从输入的不同方面提取多样性信息,鼓励每个注意力头具有独特性,因此它可以与其他注意力捕获不同的输入信息;后者通过减少与不同注意力模式的相关性来鼓励自注意力关注更多样化的位置,从而改善自注意力模式的多样性。
[0028](3)所述方案作用在预训练语言模型的微调阶段,不需要重新预训练语言模型,也没有引入任何外部的参数,是一种十分简便、轻量级的注意力引导方法。
[0029]本公开附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本公开的实践了解到。
附图说明
[0030]构成本公开的一部分的说明书附图用来提供对本公开的进一步理解,本公开的示意性实施例及其说明用于解释本公开,并不构成对本公开的不当限定。
[0031]图1为本公开实施例中所述的基于注意力引导的预训练语言模型的微调方法工作流程图。
具体实施方式
[0032]下面结合附图与实施例对本公开做进一步说明。
[0033]应该指出,以下详细本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于注意力引导的预训练语言模型的微调方法,其特征在于,包括:获取待微调的预训练语言模型以及目标任务样本集,其中,所述预训练语言模型为基于通用数据集预先训练的采用多层多头注意力机制的神经网络模型;基于所述预训练语言模型对样本集中的样本进行编码,获得样本向量表示及其对应的注意力矩阵;基于获得样本向量,以最小化构建的目标损失函数为目标对所述预训练语言模型进行微调,获得训练好的特定目标任务模型;其中,所述目标损失函数包括目标任务损失函数以及注意力头可辩别引导项;所述注意力头可辩别引导项的目标函数基于softmax得到,其将所述注意力矩阵的每行表示为一个注意力向量,每个注意力向量对应不同的类别,基于最大化每个注意力向量分配到不同类别的联合概率进行注意力头可辩别引导项的构建。2.如权利要求1所述的一种基于注意力引导的预训练语言模型的微调方法,其特征在于,所述目标损失函数包括目标任务损失函数以及注意模式去相关引导项。3.如权利要求2所述的一种基于注意力引导的预训练语言模型的微调方法,其特征在于,所述注意模式去相关引导项,具体为:将上所述注意力矩阵的每一列作为不同注意力模式的向量表示;基于所述注意力矩阵计算互相关矩阵,通过最小化互相关矩阵到单位矩阵的距离,构建所述注意模式去相关引导项。4.如权利要求2所述的一种基于注意力引导的预训练语言模型的微调方法,其特征在于,所述注意模式去相关引导项,具体表示为:其中,M为是所护注意力矩阵,I为单位矩阵,表示2

范数的平方,M
T
M∈R
L
×
L
为不同注意力模式的互相关矩阵。5.如权利要求1所述的一种基于注意力引导的预训练语言模型的微调方法,其特征在于,所述注意力头可辩别引导项,具体表示如下:其中,m为注意力向量,表示所述注意力矩阵的某一行,τ控制分布的温度参数,N
l
和N
h
分别为所...

【专利技术属性】
技术研发人员:陈竹敏王闪闪任鹏杰任昭春梁华盛
申请(专利权)人:山东大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1