当前位置: 首页 > 专利查询>东南大学专利>正文

一种面向机场应急预案文本的实体与关系联合抽取方法技术

技术编号:29072823 阅读:23 留言:0更新日期:2021-06-30 09:28
本发明专利技术公开了一种面向机场应急预案文本的实体与关系联合抽取方法,实现对机场应急预案文本的实体识别与实体关系抽取,主要包括以下步骤:机场应急预案文本过滤筛选;使用特征编码器编码机场应急预案文本句子,获得句子中单词的特征向量表示;基于句子中单词特征向量识别句子中主体实体;构建主体实体与句子中单词的注意力权重,拼接单词加权特征向量并与原始特征向量;依据拼接后的单词特征向量识别句子在每一关系类型下的客体实体,组建关系三元组,本发明专利技术实现机场应急预案文本的实体识别与实体关系抽取,考虑主体实体与句子中单词的关联,计算实体

【技术实现步骤摘要】
一种面向机场应急预案文本的实体与关系联合抽取方法


[0001]本专利技术涉及信息处理
,尤其涉及一种面向机场应急预案文本的实体与关系联合抽取方法。

技术介绍

[0002]实体识别与关系抽取是自然语言处理的重要任务,实体识别从文本中识别出具有语义的实体,关系抽取在实体识别的基础上,识别文本中实体对之间的关系。实体关系抽取包括两种模式:流水线作业模式,联合抽取模式,流水线作业模式将实体识别与关系抽取两个子任务独立执行,未考虑实体识别与关系抽取任务之间的关联;联合抽取使用单个模型完成实体识别与实体关系抽取,统一学习两任务,建模了实体识别与关系抽取之间的关联。
[0003]使用单个模型可以同时实现实体识别与关系抽取,预测输入句子中实体、实体关系,面向的机场应急预案文本格式不规整,但是一条句子中可能包含多个关系三元组,存在关系重叠问题,给关系抽取方法带来困难,例如句子“指挥中心得到预报后,立即报告总指挥或当日值班领导,并立即通知驻场单位和部门做好预防准备。”包含<指挥中心,报告,总指挥>,<指挥中心,报告,当日值班领导>,<指挥中心,通知,驻场单位和部门>,<驻场单位和部门,做好,预防准备>多个关系三元组,同时关系三元组存在实体重叠问题,已有关系抽取方法忽略主体实体与客体实体单词之间关系,未建模两者之间关联。本专利技术实现实体与关系联合抽取,解决数据中关系重叠问题,建模主体实体与客体实体单词之间关联,有效地实现针对机场应急预案文本的实体与关系联合抽取。

技术实现思路

[0004]本专利技术提供了一种面向机场应急预案文本的实体与关系联合抽取方法,建模主体实体与客体实体之间的关联,构建句子单词更丰富的特征向量,以联合抽取的模型实现实体与关系联合抽取,解决数据中存在关系重叠问题。
[0005]为实现上述目的,本专利技术采用的技术方案如下:
[0006]一种面向机场应急预案文本的实体与关系联合抽取方法,包括以下步骤:
[0007](1)对机场应急预案文本进行预处理,过滤机场应急预案文本的噪声数据,剔除不包含实体与关系信息的句子,对过滤后的句子进行标注,对句子中关系三元组进行标注,构建数据集,所述关系三元组包括主体实体,关系类型,客体实体;
[0008](2)使用Bert特征编码器对机场应急预案句子编码,使用特征向量表示句子中单词,得到句子单词向量序列s=[e1,e2,

,e
L
],其中L表示句子长度;
[0009](3)基于句子单词向量序列s=[e1,e2,

,e
L
]进行主体实体识别,将第l单词特征向量e
l
降维至二维向量降维至二维向量和分别表示第l单词是主体实体开始位置与结束位置的概率,当和大于阈值τ时,则表示第l个单词成为主体实体的开始/结束位置,否则第l个单词不为主体实体的开始/结束位置;以e
sub
=[e
start
+e
end
;e
start

e
end
]表示
主体实体特征向量,e
start
为实体开始位置对应单词的特征向量,e
end
为实体结束位置对应单词的特征向量,[;]表示特征向量的拼接操作;
[0010](4)计算主体实体e
sub
与句子中每一单词e
l
,l∈{1,2,

,L}的注意力权重a
l
,获得主体实体与句子中单词的权重a={a1,a2,

,a
L
},即实体

单词注意力权重;
[0011](5)依据实体

单词注意力权重a
l
计算单词加权特征向量使用特征向量表示第l单词,其中e
l
为原始单词向量,为加权单词向量;
[0012](6)针对关系类型进行客体实体的识别,识别句子在K种关系类型下的客体实体,解决关系重叠问题;在关系r
k
情况下,k∈{1,2,

,K},将第l个单词的特征向量降维至二维向量降维至二维向量和分别表示第l个单词在关系r
k
下成为客体实体开始位置与结束位置的概率,和大于阈值τ则表示第l个单词在r
k
关系类型下成为客体实体的开始/结束位置,依据获得的客体实体开始/结束位置确定句子在关系r
k
情况下的客体实体;对K种关系执行相同的操作,获得句子在K种关系下的客体实体;
[0013](7)依据主体实体及句子在K种关系类型下的客体实体组建关系三元组,实现实体与关系联合抽取。
[0014]进一步地,所述步骤(1)中的预处理包括对机场应急预案文本句子筛选过滤,选择包含实体、关系信息的句子,过滤掉无关噪声数据。
[0015]进一步地,所述步骤(1)中不限于每一句子中只包含一个关系三元组,且句子中关系三元组数目不定,所述句子包含的关系三元组会存在重叠问题,包括某一实体对存在多种关系、某一实体存在于多个关系三元组中。
[0016]进一步地,所述步骤(2)中使用Bert特征编码器对句子进行编码,获得句子中单词特征向量,单词被编码为一个768维度的特征向量e
l
,l∈{1,2,

,L},L是句子长度,单词特征向量e
l
隐含了单词上下文信息。
[0017]进一步地,所述步骤(3)依据单词向量序列s=[e1,e2,

,e
L
]进行主体实体的识别,包括主体实体开始位置识别与主体实体结束位置识别,将单词特征向量e
l
映射到二维向量表示第l个单词为主体实体开始位置与结束位置的概率:
[0018][0019][0020]其中表示单词e
l
为主体实体开始位置的概率,表示单词e
l
为主体实体结束位置的概率;σ为Sigmoid激活函数,获得0

1之间的概率值;W
s
和b
s
是与主体实体开始位置识别关联的参数,W
e
和b
e
是与主体实体结束位置识别关联的参数。以主体实体开始位置单词特征向量e
start
及结束位置单词特征向量e
end
表示主体实体,e
sub
=[e
start
+e
end
;e
start

e
end
],表示将向量e
start
+e
end
与e
start

e
end...

【技术保护点】

【技术特征摘要】
1.一种面向机场应急预案文本的实体与关系联合抽取方法,其特征在于,包括以下步骤:(1)对机场应急预案文本进行预处理,过滤机场应急预案文本的噪声数据,剔除不包含实体与关系信息的句子,对过滤后的句子进行标注,对句子中关系三元组进行标注,构建数据集,所述关系三元组包括主体实体、关系类型、客体实体;(2)使用Bert特征编码器对机场应急预案句子编码,使用特征向量表示句子中单词,得到句子单词向量序列s=[e1,e2,

,e
L
],其中L表示句子长度;(3)基于句子单词向量序列s=[e1,e2,

,e
L
]进行主体实体识别,将第l个单词特征向量e
l
降维至二维向量降维至二维向量和分别表示第l个单词是主体实体开始位置与结束位置的概率,当和大于阈值τ时,则表示第l单词成为主体实体的开始/结束位置,否则第l单词不为主体实体的开始/结束位置;以e
sub
=[e
start
+e
end
;e
start

e
end
]表示主体实体特征向量,e
start
为实体开始位置对应单词的特征向量,e
end
为实体结束位置对应单词的特征向量,[;]表示特征向量的拼接操作;(4)计算主体实体e
sub
与句子中每一单词e
l
,l∈{1,2,

,L}的注意力权重a
l
,获得主体实体与句子中单词的权重a={a1,a2,

,a
L
},即实体

单词注意力权重;(5)依据实体

单词注意力权重a
l
计算单词加权特征向量使用特征向量表示第l单词,其中e
l
为原始单词向量,为加权单词向量;(6)针对关系类型进行客体实体的识别,识别句子在K种关系类型下的客体实体,解决关系重叠问题;在关系r
k
情况下,k∈{1,2,

,K},将第l个单词的特征向量降维至二维向量降维至二维向量和分别表示第l个单词在关系r
k
下成为客体实体开始位置与结束位置的概率,和大于阈值τ则表示第l个单词在r
k
关系类型下成为客体实体的开始/结束位置,依据获得的客体实体开始/结束位置确定句子在关系r
k
情况下的客体实体;对K种关系执行相同的操作,获得句子在K种关系下的客体实体;(7)依据主体实体及句子在K种关系类型下的客体实体组建关系三元组,实现实体与关系联合抽取。2.根据权利要求1所述的面向机场应急预案文本的实体与关系联合抽取方法,其特征在于:所述步骤(1)中的预处理包括对机场应急预案文本句子筛选过滤,选择包含实体、关系信息的句子,过滤掉无关噪声数据。3.根据权利要求1所述的面向机场应急预案文本的实体与关系联合抽取方法,其特征在于:所述步骤(1)中不限于每一句子中只包含一个关系三元组,且句子中关系三元组数目不定,所述句子包含的关系三元组会存在重叠问题,包括某一实体对存在多种关系、某一实体存在于多个关系三元组中。4.根据权利要求1所述...

【专利技术属性】
技术研发人员:周德宇袁佳乐
申请(专利权)人:东南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1