当前位置: 首页 > 专利查询>南华大学专利>正文

联合字符感知和句子感知的小样本实体识别方法与模型技术

技术编号:33633681 阅读:9 留言:0更新日期:2022-06-02 01:42
联合字符感知和句子感知的小样本实体识别方法与模型,涉及自然语言处理技术领域,该方法包括:通过一个具有学习参数的嵌入函数,将支持集和查询集中的每一个字符编码成一个连续的维嵌入向量;原型网络根据支持集中的样例以及支持集与查询集句子间的相关性得到对应的所有实体类别的原型,且原型网络还根据支持集中的样例以及支持集与查询集字符间的相关性得到另外对应的所有实体类别的原型;分别计算查询实体与所有类别原型之间的距离,得到查询实体的两种类别分布;结合该两种类别分布得到小样本查询实体最终的类别分布,本发明专利技术利用句子之间的相关性和字符之间的相关性来改善模型在小样本实体识别任务上的性能,可有效提高模型的鲁棒性和精度。提高模型的鲁棒性和精度。提高模型的鲁棒性和精度。

【技术实现步骤摘要】
联合字符感知和句子感知的小样本实体识别方法与模型


[0001]本专利技术涉及自然语言处理
,尤其指一种联合字符感知和句子感知的 小样本实体识别方法与模型。

技术介绍

[0002]在自然语言学习中,命名实体识别是信息抽取中一项重要任务,旨在识别文 本中表示实体的成分并分类。在通用语料库中,命名实体识别任务已经获得了相 当高质量的解决方法。但是在实际应用中,丰富的语料库是不常见的,经常会出 现资源不足的情况,例如数据标注缺少,语料中某一类别实体数量较少不足以通 过训练获得准确实体类别等。为了解决上述问题,小样本学习(few

shot learning, FSL)技术被提出并得到迅速的推广,小样本学习不仅可以减小标注数据的负担, 而且使得模型能够在不需要从头训练的情况下,快速推广到新的任务中(通常每 个类别只给予1个或5个参照样本)。小样本学习在许多领域中取得了显著性的 进展,例如在计算机视觉领域以及自然语言处理领域的关系抽取中,小样本学习 都受到了广泛的研究并取得突破。
[0003]在过去,命名实体识别只在大样本场景下和有限的实体类别(人名、地名、 组织机构名)中取得不错的结果,与其它信息检索任务相比,在数据较少的情况 下,更容易产生过拟合。为了缓解这个弊端,小样本学习模型被用于命名实体识 别(Named Entity Recognition,NER)任务中,原型网络(Prototypical network) 是其中一个简单且高效的模型。原型网络对于小样本命名的基本思想是学习每个 预定义类别的原型表示,然后根据距离最近的原型对样本进行分类。大多数现有 的小样本实体识别模型,主要关注隐藏在实体空间中的海量语义信息。例如,在 以往的实体识别中,属于非预定义类别的实体通常都被归为同一种类别(otherclass,O

class),为了进一步学习原型表示,(Tong et al.2021)利用聚类的方法 对预定义类别之外的实体类别(Other

class)进行了更细的划分。然而,他们忽 略了包含多个实体类别的句子的丰富语义,同时这些方法均在粗粒度的实体分类 或对话任务的槽填充上进行,对于小样本实体识别来说,效率相对低下。因此, 可以说现有的原型方法仅仅粗略的考虑support set与queryset中实体之间的相似 性,而忽略了包含这些实体的句子之间的语义相关性。

技术实现思路

[0004]本专利技术所要解决的技术问题是提供一种联合字符感知和句子感知的小样本 实体识别方法与模型,该方法利用句子之间的相关性和字符之间的相关性来改善 模型在小样本实体识别任务上的性能,提高模型的鲁棒性和精度。
[0005]为了解决上述技术问题,本专利技术采用如下技术方法:一种基于原型网络的小 样本实体识别方法,其特征在于,包括如下步骤:
[0006]S1、通过一个具有学习参数θ的嵌入函数f
θ
(),将支持集和查询集中的每一 个字符编码成一个连续的D维嵌入向量;
[0007]X
i
=f
θ
(x
i
),X
i
∈R
D
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
[0008]S2、构建捕捉小样本中支持集与查询集句子间相关性的句子感知模型或捕捉 小样本中支持集与查询集字符间相关性的字符感知模型,原型网络根据支持集中 的样例以及句子感知模型得到的支持集与查询集句子间的相关性或字符感知模 型得到的支持集与查询集字符间的相关性,得到所有实体类别的原型;
[0009]S3、计算查询实体与每个类别原型之间的距离;
[0010]S4、根据步骤S3得到的距离确定查询实体的类别分布。
[0011]进一步地,步骤S2中,所述句子感知模型采用如下方法获得支持集与查询 集句子间的相关性:
[0012]先使用一维卷积神经网络提取查询集中每个句子s
q
的特征,并将其编码成一 个连续低维的句向量h
q

[0013]h
q
=conv(s
q
<q1,.....,q
n
>)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)
[0014]再使用一维卷积神经网络提取支持集中每个句子s
l
的特征,并将其编码成一 个连续低维的句向量
[0015][0016]最后通过如下方式计算句子之间的相关性α
l

[0017][0018]步骤S2中,原型网络根据支持集中的样例以及支持集与查询集句子间的相 关性所得到所有实体类别的原型为:
[0019][0020]式中,|c
i
|是属于实体类别c
i
的字符数量;
[0021]步骤S3中,查询实体与每个类别原型之间的距离为:
[0022][0023]步骤S4中,采用如下式确定查询实体的类别分布。
[0024][0025]或者,步骤S2中,所述字符感知模型采用如下式获得小样本中支持集与查 询集字符间的相关性;
[0026][0027]式中,β
j
表示查询实体q与c
i
类中的x
j
实体之间的相关系数;
[0028]步骤S2中,原型网络根据支持集中的样例以及支持集与查询集句子间的相 关性所得到所有实体类别的原型为:
[0029][0030]式中,|c
i
|是属于实体类别c
i
的字符数量;
[0031]步骤S3中,查询实体与每个类别原型之间的距离为:
[0032][0033]步骤S4中,采用如下式确定查询实体的类别分布。
[0034][0035]优选地,在构建句子感知模型或字符感知模型时,通过如下式最小化句子感 知模型或字符感知模型的交叉熵损失函数;
[0036][0037]式中,g
θ
为句子感知模型或字符感知模型;λ为权重衰减参数;l为 成本函数,用于计算真值标签和预测标签之间的交叉熵。
[0038]作为本专利技术的另一面,一种联合字符感知和句子感知的小样本实体识别方法, 包括如下步骤:
[0039]S1、采用如权利要求2中的方法得到小样本中查询实体的类别分布;
[0040]S2、采用如权利要求3中的方法得到小样本中查询实体的类别分布;
[0041]S3、结合步骤S1和S2中得到的类别分布得到小样本查询实体最终的类别 分布。
[0042]进一步地,步骤S3中,通过下式结合步骤S1和S2中得到的类别分布得到 小样本查询实体最终的类别分布;
[0043][0044]式中,δ是表示句子感知模型可信度的超参数,γ是表示字符感知模型可信 度的超参数。
[004本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于原型网络的小样本实体识别方法,其特征在于,包括如下步骤:S1、通过一个具有学习参数θ的嵌入函数f
θ
(),将支持集和查询集中的每一个字符编码成一个连续的D维嵌入向量;X
i
=f
θ
(x
i
),X
i
∈R
D
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)S2、构建捕捉小样本中支持集与查询集句子间相关性的句子感知模型或捕捉小样本中支持集与查询集字符间相关性的字符感知模型,原型网络根据支持集中的样例以及句子感知模型得到的支持集与查询集句子间的相关性或字符感知模型得到的支持集与查询集字符间的相关性,得到所有实体类别的原型;S3、计算查询实体与每个类别原型之间的距离;S4、根据步骤S3得到的距离确定查询实体的类别分布。2.根据权利要求1中所述的基于原型网络的小样本实体识别方法,其特征在于:步骤S2中,所述句子感知模型采用如下方法获得支持集与查询集句子间的相关性:先使用一维卷积神经网络提取查询集中每个句子s
q
的特征,并将其编码成一个连续低维的句向量h
q
;h
q
=conv(s
q
<q1,.....,q
n
>)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)再使用一维卷积神经网络提取支持集中每个句子s
l
的特征,并将其编码成一个连续低维的句向量维的句向量最后通过如下方式计算句子之间的相关性α
l
;步骤S2中,原型网络根据支持集中的样例以及支持集与查询集句子间的相关性所得到所有实体类别的原型为:式中,|c
i
|是属于实体类别c
i
的字符数量;步骤S3中,查询实体与每个类别原型之间的距离为:步骤S4中,采用如下式确定查询实体的类别分布。3.根据权利要求1中所述的基于原型网络的小样本实体识别方法,其特征在于:步骤S2中,所述字符感知模型采用...

【专利技术属性】
技术研发人员:刘永彬林强欧阳纯萍万亚平陶治华田纹龙聂沛
申请(专利权)人:南华大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1