【技术实现步骤摘要】
一种面向机场应急预案文本的实体与关系联合抽取方法
[0001]本专利技术涉及信息处理
,尤其涉及一种面向机场应急预案文本的实体与关系联合抽取方法。
技术介绍
[0002]实体识别与关系抽取是自然语言处理的重要任务,实体识别从文本中识别出具有语义的实体,关系抽取在实体识别的基础上,识别文本中实体对之间的关系。实体关系抽取包括两种模式:流水线作业模式,联合抽取模式,流水线作业模式将实体识别与关系抽取两个子任务独立执行,未考虑实体识别与关系抽取任务之间的关联;联合抽取使用单个模型完成实体识别与实体关系抽取,统一学习两任务,建模了实体识别与关系抽取之间的关联。
[0003]使用单个模型可以同时实现实体识别与关系抽取,预测输入句子中实体、实体关系,面向的机场应急预案文本格式不规整,但是一条句子中可能包含多个关系三元组,存在关系重叠问题,给关系抽取方法带来困难,例如句子“指挥中心得到预报后,立即报告总指挥或当日值班领导,并立即通知驻场单位和部门做好预防准备。”包含<指挥中心,报告,总指挥>,<指挥中心,报告,当日值班领导>,<指挥中心,通知,驻场单位和部门>,<驻场单位和部门,做好,预防准备>多个关系三元组,同时关系三元组存在实体重叠问题,已有关系抽取方法忽略主体实体与客体实体单词之间关系,未建模两者之间关联。本专利技术实现实体与关系联合抽取,解决数据中关系重叠问题,建模主体实体与客体实体单词之间关联,有
【技术保护点】
【技术特征摘要】
1.一种面向机场应急预案文本的实体与关系联合抽取方法,其特征在于,包括以下步骤:(1)对机场应急预案文本进行预处理,过滤机场应急预案文本的噪声数据,剔除不包含实体与关系信息的句子,对过滤后的句子进行标注,对句子中关系三元组进行标注,构建数据集,所述关系三元组包括主体实体、关系类型、客体实体;(2)使用Bert特征编码器对机场应急预案句子编码,使用特征向量表示句子中单词,得到句子单词向量序列s=[e1,e2,
…
,e
L
],其中L表示句子长度;(3)基于句子单词向量序列s=[e1,e2,
…
,e
L
]进行主体实体识别,将第l个单词特征向量e
l
降维至二维向量降维至二维向量和分别表示第l个单词是主体实体开始位置与结束位置的概率,当和大于阈值τ时,则表示第l单词成为主体实体的开始/结束位置,否则第l单词不为主体实体的开始/结束位置;以e
sub
=[e
start
+e
end
;e
start
‑
e
end
]表示主体实体特征向量,e
start
为实体开始位置对应单词的特征向量,e
end
为实体结束位置对应单词的特征向量,[;]表示特征向量的拼接操作;(4)计算主体实体e
sub
与句子中每一单词e
l
,l∈{1,2,
…
,L}的注意力权重a
l
,获得主体实体与句子中单词的权重a={a1,a2,
…
,a
L
},即实体
‑
单词注意力权重;(5)依据实体
‑
单词注意力权重a
l
计算单词加权特征向量使用特征向量表示第l单词,其中e
l
为原始单词向量,为加权单词向量;(6)针对关系类型进行客体实体的识别,识别句子在K种关系类型下的客体实体,解决关系重叠问题;在关系r
k
情况下,k∈{1,2,
…
,K},将第l个单词的特征向量降维至二维向量降维至二维向量和分别表示第l个单词在关系r
k
下成为客体实体开始位置与结束位置的概率,和大于阈值τ则表示第l个单词在r
k
关系类型下成为客体实体的开始/结束位置,依据获得的客体实体开始/结束位置确定句子在关系r
k
情况下的客体实体;对K种关系执行相同的操作,获得句子在K种关系下的客体实体;(7)依据主体实体及句子在K种关系类型下的客体实体组建关系三元组,实现实体与关系联合抽取。2.根据权利要求1所述的面向机场应急预案文本的实体与关系联合抽取方法,其特征在于:所述步骤(1)中的预处理包括对机场应急预案文本句子筛选过滤,选择包含实体、关系信息的句子,过滤掉无关噪声数据。3.根据权利要求1所述的面向机场应急预案文本的实体与关系联合抽取方法,其特征在于:所述步骤(1)中不限于每一句子中只包含一个关系三元组,且句子中关系三元组数目不定,所述句子包含的关系三元组会存在重叠问题,包括某一实体对存在多种关系、某一实体存在于多个关系三元组中。4.根据权利要求1所述...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。