当前位置: 首页 > 专利查询>浙江大学专利>正文

基于知识指导前缀微调的自然语言处理方法、装置、计算设备和存储介质制造方法及图纸

技术编号:32132570 阅读:29 留言:0更新日期:2022-01-29 19:35
本发明专利技术公开了一种基于知识指导前缀微调的自然语言处理方法、装置、计算设备和存储介质,首先构建与下游任务相关的前缀提示词和与从知识图谱中获得任务类别相关的标签词,然后利用前缀提示词的嵌入向量与输入文本的key值与value值拼接后进行self

【技术实现步骤摘要】
基于知识指导前缀微调的自然语言处理方法、装置、计算设备和存储介质


[0001]本专利技术属于自然语言处理技术,具体涉及一种基于知识指导前缀微调的自然语言处理方法、装置、计算设备和存储介质。

技术介绍

[0002]预训练模型是在大型基准数据集上训练得到的模型,例如BERT、GPT、XLNet等大型预训练语言模型,其利用在大量语料进行预训练得到。因为预训练模型已经利用大量的语料进行无监督学习,已将语料中的知识迁移进了预训练模型的Eembedding(嵌入)中。
[0003]微调/fine

tune是将PTM知识转移到下游任务的主要方法,目前常用的微调方法均需在针对特定任务增加网络结构来进行微调,以此适应某种特定任务。但这类微调方法有如下缺陷:(1)其参数效率低下:每个下游任务都有自己的微调参数;(2)预训练的训练目标和微调目标不同,导致预训练模型泛化能力差;(3)其相对预训练阶段增加网络参数,需要大量数据才能学好新增的参数。基于这些微调方法的缺点导致在情感分析任务、关系抽取任务以及各种分类任务中任务效果不佳。
[本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于知识指导前缀微调的自然语言处理方法,其特征在于,包括以下步骤:根据下游任务构建初始前缀提示词,并将初始前缀提示词通过函数映射成与预训练语言模型层数相同个数的嵌入向量,每个嵌入向量维度为对应模型层维度的2倍;将下游任务的每个任务类别链接到知识图谱,将知识图谱中与每个任务类别相关的词语作为标签词;依据前缀提示词和标签词,将预训练语言模型转化为遮蔽令牌的下游任务,对预训练语言模型进行微调训练,包括:将训练文本输入预训练语言模型,在每一层,前缀提示词的嵌入向量拆分成维度与对应的模型层维度相同的2部分,分别与训练文本对应的key值与value值拼接后,参与self

attention的计算,同时以每个任务类别对应的所有标签词的加权结果作为标签,优化前缀提示词的嵌入向量,预训练语言模型参数、标签词的权重;应用时将预测文本、前缀提示词的嵌入向量输入至微调后的预训练语言模型,经过计算,将所有标签词的预测值与对应的权重的加权结果作为预测结果。2.根据权利要求1所述的基于知识指导前缀微调的自然语言处理方法,其特征在于,所述将初始前缀提示词通过函数映射成与预训练语言模型层数相同个数的嵌入向量,包括:将初始前缀提示词初始编码为初始嵌入向量,然后采用函数映射将初始嵌入向量进行一次映射,得到与预训练语言模型层数相同个数的嵌入向量。3.根据权利要求1所述的基于知识指导前缀微调的自然语言处理方法,其特征在于,所述将初始前缀提示词通过函数映射成与预训练语言模型层数相同个数的嵌入向量,包括:将初始前缀提示词初始编码为初始嵌入向量,将采用多层MLP将初始嵌入向量进行映射到预训练语言模型的每一层,得到每一层对应的嵌入向量。4.根据权利要求1所述的基于知识指导前缀微调的自然语言处理方法,其特征在于,对预训练语言模型进行微调训练时,参与self

attention的计算方式为:其中,l表示层数,Q
l
表示query值,K
l
表示key值,V
l
表示value值,表示前缀提示词的嵌入向量拆分出来对应key值的那部分,表示前缀提示词的嵌入向量拆分出来对应value值的那部分,soft(
·
)表示,符号;表示拼接操作。5.根据权利要求1所述的基于知识指导前缀微调的自然语言处理方法,其特征在于,所述预训练语言模型包括:BERT,RoBerta,GPT系列模型。6.根据权利要求1所述的基于知识指导前缀微调的自然语言处理方法,其特征在于,所述下游任务为情感分析任务...

【专利技术属性】
技术研发人员:陈华钧陈想张宁豫李磊谢辛
申请(专利权)人:浙江大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1