实体关系联合抽取方法技术

技术编号:31506579 阅读:13 留言:0更新日期:2021-12-22 23:38
本发明专利技术涉及计算机技术领域,公开了一种实体关系联合抽取方法,本发明专利技术通过BiLSTM对待测语句进行编码,获取token的固定维表示;利用两个自注意力层和门控制机制捕获实体表征之间的权重值,从而获得所述待测语句对应的实体;利用GANCE模型对所述实体进行解码获得预测关系;引入同方差不确定性来实现自动加权损失计算,并更新预测关系获得最终抽取结果,由于采用双重自注意力机制和门控制机制动态融合标签信息,有效获取实体远距离依赖关系,并引入同方差不确定性自动平衡NER和RE两个子任务的权重损失,实现了在实体关系抽取中提升了准确性的技术效果。性的技术效果。性的技术效果。

【技术实现步骤摘要】
实体关系联合抽取方法


[0001]本申请涉及计算机
,特别是涉及一种实体关系联合抽取方法。

技术介绍

[0002]实体识别与关系抽取作为文本挖掘中的重要步骤,近年来成为研究的热点。其主要目的是从非结构化文本中自动地抽取实体以及相关实体关系结构,在知识图谱构建,信息检索和系统问答等自然语言处理任务中起着至关重要的作用。
[0003]传统的实体关系抽取分为两个步骤,即以管道式模式进行命名实体识别(NameEntityRecognize,NER)和关系抽取(RelationExtract,RE)。然而该方法存在错误传递的缺点,即在NER步骤中产生的错误会影响RE的效果。,该方法的两个子任务在交互过程中忽略了任务相关性,然而这两个子任务之间的相关性是有助于提高关系抽取的识别率。尽管先前的工作已经取得很大成果,然而这些方法仍然存在不足。首先,目前所提出的联合模型或管道模型没有关注两个子任务损失的权重问题,忽略了任务之间的相对权重损失。然而对于联合模型来说,正确的权重损失对于抽取结果是至关重要的。其次,关系抽取通常情况下依赖的是一些相关实体,而并不是句中的所有单词。因此,如何提升在实体关系抽取中的准确性成为了一个亟待解决的问题。
[0004]上述内容仅用于辅助理解本专利技术的技术方案,并不代表承认上述内容是现有技术。

技术实现思路

[0005]本专利技术的主要目的在于提供了一种实体关系联合抽取方法,旨在解决现有技术无法提升实体关系抽取准确性的技术问题。
[0006]为实现上述目的,本专利技术提供了一种实体关系联合抽取方法的方法,所述方法包括:
[0007]通过BiLSTM对待测语句进行编码,获取token的固定维表示;
[0008]利用两个自注意力层和门控制机制捕获实体表征之间的权重值,从而获得所述待测语句对应的实体;
[0009]利用GANCE模型对所述实体进行解码获得预测关系;
[0010]引入同方差不确定性来实现自动加权损失计算,并更新预测关系获得最终抽取结果。
[0011]可选地,所述通过BiLSTM对待测语句进行编码,获取token的固定维表示的步骤之前,还包括:
[0012]使用分布式特征表示作为BiLSTM的输入。
[0013]可选地,利用两个自注意力层和门控制机制捕获实体表征之间的权重值,从而获得所述待测语句对应的实体的步骤之前,还包括:
[0014]利用自注意力机制构建两个注意力层,并选择比例点积的方法。
[0015]可选的,所述利用GANCE模型对所述实体进行解码获得预测关系的步骤之前,还包括:
[0016]收集待训练参数,获取所述参数中的标签;
[0017]利用门控机制动态的所述将标签信息融合到模型GANCE中,以对模型进行训练。
[0018]可选地,所述收集待训练参数,获取所述参数中的标签的步骤,包括:
[0019]收集待训练参数,采用BIO标注方式对所述待训练参数进行标注以获得对应的标签;
[0020]采用随机初始化的向量作为标签的模型初次输入。
[0021]可选地,所述利用门控机制动态的所述将标签信息融合到模型GANCE中,以对模型进行训练的步骤,包括:
[0022]利用门控机制动态的将标签信息融合到模型GANCE中,其具体方法为:
[0023]α=σ(W
t
M
t
+W
l
L+b
f
)
[0024]M
F
=α

M
t
+(1

α)

L
[0025]其中,W
t
,W
t
∈R
2d*2d
,b
f
∈R
2d
,σ是一个sigmoid激活函数,

是同位元素乘法,M
F
作为输入,将融合了token的标签空间信息转换为token

label形式,并将token

label融合向量[m
2F
,m
2F
,m
3F
,...,m
nF
]作为queries、keys和values矩阵传递给矩阵,并且token

label融合的隐藏表示被记作M
t
‑1,具体公式如下:
[0026]M
t
‑1=SAN(M
F
,M
F
,M
F
)。
[0027]可选地,所述引入同方差不确定性来实现自动加权损失计算,并更新预测关系获得最终抽取结果的步骤,包括:
[0028]引入不确定性来实现自动加权损失计算,具体计算公式为:
[0029]L
joint
(w;θ)=L

ner
+L

re
[0030]其中:
[0031][0032][0033]本专利技术通过BiLSTM对待测语句进行编码,获取token的固定维表示;利用两个自注意力层和门控制机制捕获实体表征之间的权重值,从而获得所述待测语句对应的实体;利用GANCE模型对所述实体进行解码获得预测关系;引入同方差不确定性来实现自动加权损失计算,并更新预测关系获得最终抽取结果,由于采用双重自注意力机制和门控制机制动态融合标签信息,有效获取实体远距离依赖关系,并引入同方差不确定性自动平衡NER和RE两个子任务的权重损失,实现了在实体关系抽取中提升了准确性的技术效果。
附图说明
[0034]图1为本专利技术实体关系联合抽取方法方法第一实施例的流程示意图;
[0035]图2为本专利技术实体关系联合抽取方法方法第一实施例中GANCE模型的总体框架图;
[0036]图3为本专利技术实体关系联合抽取方法装置第一实施例的自注意力模块的结构图。
具体实施方式
[0037]应当理解,此处所描述的具体实施例仅用以解释本专利技术,并不用于限定本专利技术。
[0038]本专利技术实施例提供了一实体关系联合抽取方法,参照图1,图1为本专利技术实体关系联合抽取方法方法第一实施例的流程示意图。
[0039]本实施例中,所述实体关系联合抽取方法方法包括以下步骤:
[0040]步骤S10:通过BiLSTM对待测语句进行编码,获取token的固定维表示。
[0041]需要说明的是,通过字级别编码器和自注意模块获得token representation,通过随机初始化向量得到低维标签,再次通过结合门控制机制与自注意力机制抽取相关实体。其中模型中的条件随机场(CRF)和多头机制分别用于对NER和RE两个部分进行解码。
[0042]可以理解的是,如图2所示的GANCE模型的总体框架图,其中输入的语句为:The Democ本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种实体关系联合抽取方法,其特征在于,所述方法包括:通过BiLSTM对待测语句进行编码,获取token的固定维表示;利用两个自注意力层和门控制机制捕获实体表征之间的权重值,从而获得所述待测语句对应的实体;利用GANCE模型对所述实体进行解码获得预测关系;引入同方差不确定性来实现自动加权损失计算,并更新预测关系获得最终抽取结果。2.如权利要求1所述的方法,其特征在于,所述通过BiLSTM对待测语句进行编码,获取token的固定维表示的步骤之前,还包括:使用分布式特征表示作为BiLSTM的输入。3.如权利要求1所述的方法,其特征在于,所述利用两个自注意力层和门控制机制捕获实体表征之间的权重值,从而获得所述待测语句对应的实体的步骤之前,还包括:利用自注意力机制构建两个注意力层,并选择比例点积的方法。4.如权利要求1所述的方法,所述利用GANCE模型对所述实体进行解码获得预测关系的步骤之前,还包括:收集待训练参数,获取所述参数中的标签;利用门控机制动态的所述将标签信息融合到模型GANCE中,以对模型进行训练。5.如权利要求4所述的方法,其特征在于,所述收集待训练参数,获取所述参数中的标签的步骤,包括:收集待训练参数,采用BIO标注方式对所述待训练参数进行标注以获得对应的标签;采用随机初始化的向量作为标签的模型初次输入。6.如权利要求4所述的方法,其特征在于,所述利用门控机制动态的所述将标签信息融合到模型GANCE中,以对模型进行训练的步骤,包括:利用门控机制动态的将标签信息融合到模型GANCE中,其具体方法为:α=σ(W
t
M
t
+W
l
L+b
f
)M
F
=...

【专利技术属性】
技术研发人员:赵薇
申请(专利权)人:湖南警察学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1