基于注意力引导机制的预训练语言模型的微调方法及系统技术方案

技术编号：34620341 阅读：23 留言：0更新日期：2022-08-20 09:27

本公开提供了一种基于注意力引导的预训练语言模型的微调方法及系统，其属于预训练语言模型的微调技术领域，所述方案包括：获取待微调的预训练语言模型以及目标任务样本集；基于所述预训练语言模型对样本集中的样本进行编码，获得样本向量表示及其对应的注意力矩阵；基于获得样本向量，以最小化构建的目标损失函数为目标对所述预训练语言模型进行微调，获得训练好的特定目标任务模型；其中，所述目标损失函数包括目标任务损失函数以及注意力头可辩别引导项或注意力模式去相关引导；所述方案在微调阶段不使用额外信息的情况下引导自注意力机制，有效提高下游任务的性能。有效提高下游任务的性能。有效提高下游任务的性能。

全部详细技术资料下载

【技术实现步骤摘要】
基于注意力引导机制的预训练语言模型的微调方法及系统

[0001]本公开属于预训练语言模型的微调
，尤其涉及一种基于注意力引导的预训练语言模型的微调方法及系统。

技术介绍

[0002]本部分的陈述仅仅是提供了与本公开相关的
技术介绍
信息，不必然构成在先技术。
[0003]预训练的语言模型(Pretrained Language Model，PLM)在广泛的下游任务中带来了巨大的性能提升，包括机器翻译、文本分类、文档排名等。预训练语言模型的核心组件是自注意力机制，它允许模型捕获输入数据的远程依赖信息。
[0004]专利技术人发现，当前许多研究都集中于分析自注意机制，即注意力的权重和连接，以解释网络或揭示预训练模型的特性。这些探索性工作存在一个普遍现象，即尽管自注意机制取得了成功，但这些语言模型仅表现出简单的注意力模式；有研究发现预训练语言模型中大部分的注意力连接根本不需要学习，因为预训练模型中学习到的大多数自注意模式只是反映了上下文信息的位置编码。同时，已有研究证实通过引入各种信息可以提高自注意力的有效性，如单词之间的相似度、输入样本的句法信息等，但是，由于这些方法修改了自注意力的计算过程，因此它们必须从头开始重新训练一个新的预训练语言模型。众所周知，使用大量数据从头开始训练一个预训练语言模型将花费大量的计算资源和时间。此外，提取额外的信息，如句法结构，也将进一步增加计算负担。

技术实现思路

[0005]本公开为了解决上述问题，提供了一种基于注意力引导的预训练语言模型的微调方法及系统，...

【技术保护点】

【技术特征摘要】
1.一种基于注意力引导的预训练语言模型的微调方法，其特征在于，包括：获取待微调的预训练语言模型以及目标任务样本集，其中，所述预训练语言模型为基于通用数据集预先训练的采用多层多头注意力机制的神经网络模型；基于所述预训练语言模型对样本集中的样本进行编码，获得样本向量表示及其对应的注意力矩阵；基于获得样本向量，以最小化构建的目标损失函数为目标对所述预训练语言模型进行微调，获得训练好的特定目标任务模型；其中，所述目标损失函数包括目标任务损失函数以及注意力头可辩别引导项；所述注意力头可辩别引导项的目标函数基于softmax得到，其将所述注意力矩阵的每行表示为一个注意力向量，每个注意力向量对应不同的类别，基于最大化每个注意力向量分配到不同类别的联合概率进行注意力头可辩别引导项的构建。2.如权利要求1所述的一种基于注意力引导的预训练语言模型的微调方法，其特征在于，所述目标损失函数包括目标任务损失函数以及注意模式去相关引导项。3.如权利要求2所述的一种基于注意力引导的预训练语言模型的微调方法，其特征在于，所述注意模式去相关引导项，具体为：将上所述注意力矩阵的每一列作为不同注意力模式的向量表示；基于所述注意力矩阵计算互相关矩阵，通过最小化互相关矩阵到单位矩阵的距离，构建所述注意模式去相关引导项。4.如权利要求2所述的一种基于注意力引导的预训练语言模型的微调方法，其特征在于，所述注意模式去相关引导项，具体表示为：其中，M为是所护注意力矩阵，I为单位矩阵，表示2
‑
范数的平方，M
T
M∈R
L
×
L
为不同注意力模式的互相关矩阵。5.如权利要求1所述的一种基于注意力引导的预训练语言模型的微调方法，其特征在于，所述注意力头可辩别引导项，具体表示如下：其中，m为注意力向量，表示所述注意力矩阵的某一行，τ控制分布的温度参数，N
l
和N
h
分别为所...

【专利技术属性】
技术研发人员：陈竹敏，王闪闪，任鹏杰，任昭春，梁华盛，
申请(专利权)人：山东大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人