一种基于多任务和提示学习的小样本命名实体识别方法技术

技术编号:37664611 阅读:48 留言:0更新日期:2023-05-26 04:22
本发明专利技术公开了一种基于多任务和提示学习的小样本命名实体识别方法,在利用原型网络进行实体抽取阶段,针对原型网络无法利用标签之间的依赖转移关系,引入条件随机场(CRF)进行联合解码。在构建提示模板时,对提示模板引入可自动学习语义的虚拟字符,增加模型的鲁棒性。此外对提示模板中硬提示符单独赋予自注意力机制,增强硬提示符语义之间的连贯性和整体性。将多任务与提示学习相结合,将命名实体识别拆分成两个子任务来完成;基于提示学习的方式,将实体词嵌入至提示模板完成实体类型的分类。本发明专利技术能够提高鲁棒性,同时对提示模板中硬提示符单独赋予自注意力机制,增强硬提示符的联贯性和整体性。的联贯性和整体性。的联贯性和整体性。

【技术实现步骤摘要】
一种基于多任务和提示学习的小样本命名实体识别方法


[0001]本专利技术涉及深度学习自然语言处理
,具体涉及一种基于多任务和提示学习的小样本命名实体识别方法,可用于小样本命名实体识别任务中,能够为知识图谱的构建、机器翻译、问答系统所服务。

技术介绍

[0002]随着信息技术的高速发展,海量的信息以文本为载体在互联网上传播,而如何从海量的文本中提取出有价值的信息成为当下热点研究问题。命名实体识别(Name Entity Recognition,NER)作为信息抽取领域的一项子任务,其目标是识别出文本中的实体所在的位置以及实体对应的类别。命名实体识别作为文本信息结构化的预处理步骤,广泛应用于问答系统、知识库构建等诸多下游任务中。
[0003]深度学习方法在命名实体识别任务上表现优异,但深度学习方法依赖大量标注数据来训练模型,而在实际应用场景中,很多领域无法获得丰富的命名实体标注数据,而对于命名实体识别数据集的标注工作极其耗费人力,且需要标注人员具备较高的领域内的相关知识,因此小样本命名实体识别具备较高的实用价值。基于提示学习(Prom本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于多任务和提示学习的小样本命名实体识别方法,其特征在于,包括以下步骤:步骤一:对待抽取实体的文本语句进行编码;利用预训练模型BERT得到文本语句的各个词的编码向量;步骤二:抽取文本中实体;原型网络先基于支持集样本计算出每个实体类别的几何中心,然后将该中心作为对应类别的原型;对查询集文本单词分类时,通过对比单词到每个原型的距离,从而预测出单词的类别;引入条件随机场进行联合解码,得到全局最优的标签序列,根据预测的标签得到文本中的实体词;步骤三:构建提示模板并进行词嵌入;经过实体抽取模块得到文本中的命名实体后,将实体词填充到提示模板,然后将提示模板与原始文本拼接得到完整的输入样本;在提示模板中引入需要自动学习语义的软提示符,提高模型的鲁棒性;软提示符采用随机向量嵌入,原始文本与硬提符由预训练模型BERT生成嵌入向量;步骤四:对原始文本和提示模板进行编码;提示模板先经过一层双向长短期记忆网络BiLSTM进行编码,以缓解提示模板中软提示符和硬提示符之间的语义割裂问题;针对硬体提示符以及实体词的编码向量单独引入自注意力编码,增强该部分单词之间的相关性以及语义上的连贯性;最后将原始文本的向量序列与提示模板的向量序列拼接输入BERT进行编码,得到最终输出的隐藏层向量序列;步骤五:实体类型分类;采用与预训练模型预训练任务相同的掩码预测任务对实体类型进行分类;利用BERT掩码预测任务的头部对最终输出的隐藏层向量序列中被遮盖的字符MASK进行预测,最后将预测的单词转换成实体的类别标签。2.根据权利要求1所述的一种基于多任务和提示学习的小样本命名实体识别方法,其特征在于,步骤一:对待抽取实体的文本语句进行编码;采用预训练模型BERT对输入的文本进行编码,经过语料预训练的BERT捕捉到文本更深层次的信息;BERT的模型的输入分为三个部分:词嵌入、位置嵌入、片段嵌入;词嵌入指输入文本中每个单词的初始向量表示;位置嵌入记录了文本中每个词的位置信息;片段嵌入标识单词是属于哪一个句子,其值为0或1,0表示属于第一个句子,1表示属于第二个句子;对于每个输入文本,BERT会在文本的开始位置和结束位置分别添加[CLS]、[SEP]标识符,其中[CLS]标识符通常用于文本的整句向量表示;对于长度为L的输入样本x=[x1,x2,...,x
L
],在经过BERT编码后得到最终的编码序列H=[h0,h1,h2,...,h
L+1
],其中,h0表示[CLS]标识符的编码向量,h
L+1
表示[SEP]的编码向量,h1,h2,...h
L
则表示原始输入文本的编码向量。3.根据权利要求1所述的一种基于多任务和提示学习的小样本命名实体识别方法,其特征在于,步骤二:抽取文本中实体;实体抽取层基于原型网络实现,原型网络通过把样本语句投影到一个空间,然后计算每个类别的几何中心作为原型,在分类的时候,通过对比单词与每个原型的距离,从而预测出单词的类别;在解码阶段引入条件随机场CRF以捕条件捉标签类别之间的转移关系;为了使实体抽取任务适配到原型网络,将数据集标签进行转化,将原始标签统一转换成B、I、O三类,其中B表示实体的开始位置,I表示实体的中间或者结束位置,O表示非实体
词,通过对输入样本语句中每个单词进行分类预测,达到实体抽取的目的;实体抽取层的输入分为支持集和查询集两部分,支持集从训练集采样k个样本构成,查询集为待预测样本构成;支持集先经过原型网络生成每个类别对应的原型c,设支持集为类别t的原型c
t
计算过程如下:h
i
=BERT(x
i
)
ꢀꢀꢀꢀ
(1)其中,S
t
表示支持集中所有样本语句中的类别为t的单词构成的集合,支持集中的样本语句先经过编码器BERT得到编码向量H
i
=[h0,h1,h2,...,h
L+1
],如公式(2)所示,原型网络通过计算同一类别单词编码向量的几何质心来确定各个类别的原型;然后,通过度量查询集文本的单词的编码向量到每个原型的欧式距离得到相应的类别概率,计算方式如公式(3)和(4)所示,其中h
i
为输入文本中单词x
i
经过编码层得到的向量,d(C
t
,h
i
)表示向量h
i
与类别t的原型向量C
t
之间负的欧式距离;在计算单词的编码向量到各个原型的距离之后,再经过softmax归一化,得到单词x
i
的对应的各类别概率为p(y
i
|x
i
);d(c
t
,h
i
)=

||h
i

c
t
||
ꢀꢀꢀꢀ
(3)p(y
i
|x
i
)=Softmax(d(c0,h
i
),

,d(c
T
,h
i
))
ꢀꢀꢀꢀ
(4)最后,CRF层对单词到标签的发射概率以及标签之间的转移概率联合建模,输出全局最优的标签序列,计算公式如下:为了提高实体抽取模块对实体抽取的效果,缩小模型预测结果与真实结果的差距,设计了如式(6)所示的损失函数,为了缓解损失相对较高的字符学习不足的问题,在交叉熵损失的基础上额外添加了一个字符损失最大的损失项:4.根据权利要求1所述的一种基于多任务和提示学习的小样本命名实体识别方法,其特征在于,步骤三:构建提示模板并进行词嵌入;嵌入层的输入分为原始训练样本和提示模板,在经过实体抽取模块得到文本中的实体后,将其填充到提示模板,然后将提示模板与原始文本拼接得到完整的输入样本,经过实体抽取模块抽取出里面的人名实体,然后将其填充到提示模...

【专利技术属性】
技术研发人员:徐云兵王洁
申请(专利权)人:北京工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1