一种融合实体标签编码的小样本学习命名实体识别方法技术

技术编号:37581704 阅读:43 留言:0更新日期:2023-05-15 07:56
本发明专利技术公开了一种融合实体标签编码的小样本学习命名实体识别方法,包括:步骤(1)得到字符特征及其序列;步骤(2)得到词对特征矩阵、距离特征矩阵和区域特征矩阵,并拼接得到词对关系特征矩阵;步骤(3)得到每个实体标签的特征表示;步骤(4)计算每个词对关系特征与实体标签特征的点积相似度,得到转移概率矩阵;步骤(5)选取最优模型作为最终的预训练模型;步骤(6)载入预训练模型进行小样本学习,将句子输入到模型中,输出词对关系矩阵。该方法将分别对词对和实体标签进行编码,再将词对的表征和实体标签的表征进行匹配,得到词与词之间的实体关系。能够在低资源的情况下,有效地识别连续实体、重叠实体和不连续实体。重叠实体和不连续实体。重叠实体和不连续实体。

【技术实现步骤摘要】
一种融合实体标签编码的小样本学习命名实体识别方法


[0001]本专利技术涉及信息抽取领域,具体来说是一种融合标签编码的小样本命名实体识别方法,能够有效得从文本中抽取出命名实体。

技术介绍

[0002]命名实体识别是一项经典的文本信息抽取任务,旨在从一段非结构化文本中抽取出具有特定意义的实体信息,在不同场景下的命名实体识别人物,需要识别的命名实体类型也是不同。当我们在一定领域的中有大量的标注样本,但是在目标领域内只有少量的标注样本时,一个提升模型效果的方法是利用迁移学习技术,在源领域有大量样本的数据上预训练,再在目标领域小样本上训练微调,从而能够迅速得到一个在目标领域效果不错的模型,这就是小样本学习。
[0003]在命名实体识别问题中,不同场景中需要预测的实体类型是不同的,这导致无法直接进行迁移学习。为了解决这种小样本学习下的命名实体识别任务,学术界也提出了一些相应的方法。基于相似性的方法,其核心思想是对已知领域中的所有句子根据实体类型进行分类,用每个类中所有句子的平均嵌入来表示这个类别,对于小样本学习中新领域的每个句子,将其嵌入表示与每本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种融合实体标签编码的小样本学习命名实体识别方法,其特征在于,包括以下步骤:步骤(1)构建数据集,数据集中包含若干样本以及对应样本标注的实体标签;步骤(2)使用Bert将输入句子中的每个字符进行字嵌入转化,得到字符特征序列;步骤(3)利用CLN将步骤(2)的字符特征序列表示成词对特征矩阵V,同时计算各个字符之间的距离表示成距离特征矩阵E
d
,以及一个上下三角区域特征矩阵E
t
,将三个特征矩阵的特征进行拼接得到词对关系特征矩阵C;步骤(4)将每个实体标签进行自然语言的转换,再使用Bert对这些标签进行编码,得到每个实体标签的特征表示L;步骤(5)对于词对关系特征矩阵C中的每个词对关系特征表示,与每个实体标签的特征表示计算点积相似度,得到每个词对与每个实体标签的转移概率矩阵;步骤(6)用标注样本对步骤(2)

步骤(5)组成的模型进行训练,选取最优模型作为最终的预训练模型;步骤(7)载入预训练模型,标注样本进行小样本学习,将句子输入到训练好的模型中,输出词对关系矩阵Y,对词对关系矩阵进行解码,得到最终的实体词及其类型。2.根据权利要求1所述的一种融合实体标签编码的小样本学习命名实体识别方法,其特征在于,所述步骤(2)具体实现过程如下:使用Bert将输入句子中的每个字符进行字嵌入转化,得到字符级别的嵌入表示;对于长度为N的输入句子X={x1,x2,

,x
N
}∈R
N
,用Bert对其每一个字符x
i
进行编码,得到字符特征序列征序列d
h
为字符特征的维度,R为表示特征的维度。3.根据权利要求2所述的一种融合实体标签编码的小样本学习命名实体识别方法,其特征在于,所述步骤(3)中,词对特征矩阵V的获取方法:利用CLN将的字符特征序列表示成词对特征矩阵其中V
ij
的计算公式为:V
ij
为h
i
关于h
j
的特征表示,其中γ
ij
=W
α
h
i
+b
α
,λ
ij
=W
β
h
i
+b
β
经过全连接层训练得到,W
α
和W
β
是可学习的权重矩阵,b
α
和b
β
是可学习的偏置向量,μ和σ是h
i
的均值和标准差,其公式如下所示:其中d
h
为字符特征的维度,h
jk
为字符特征序列H中第j个字符特征的第k个元素。4.根据权利要求3所述的一种融合实体标签编码的小样本学习命名实体识别方法,其特征在于,所述步骤(3)中,距离特征矩阵E
d
的获取方法:计算各个字符特征之间的距离得到距离特征矩阵对于输入的句子X,两个词(x
i
,x
j
)之间的距离表示为这两个词的绝对距离|i

j|,再经过一个嵌入层,得到距
离的分...

【专利技术属性】
技术研发人员:姜明陈跃晨张旻
申请(专利权)人:杭州电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1