【技术实现步骤摘要】
基于实体森林的实体语义关系联合抽取方法及系统
[0001]本专利技术涉及互联网技术以及语义识别
,并特别涉及一种可用于知识图谱和信息抽取领域的实体关系联合抽取方法和系统。
技术介绍
[0002]实体(Entity)、关系(Relation)作为主要的语义信息载体,是自然语言的结构化形式,因而广泛用于自然语言处理任务中。实体可以是现实中实际存在的事物,如人、地点、公司、电话、动物等,也可以是时间、日期等,通常在自然语言中做主语或宾语(主句或从句中)。关系则是实体之间的某种联系,在自然语言中,则是实体间的语义关系特征。自然语言可结构化为〈头实体,关系,尾实体〉三元组的重叠、嵌套组合。实体关系联合抽取就是从文本中将实体、关系同时抽取的技术。例如,给定文本“AA被称为XX国的浪漫之都”,经过实体关系联合抽取可抽取出〈AA,首都,XX国〉,头实体是AA,尾实体是XX国,两者的关系是首都。但自然语言中,多个实体可能处于同一位置,即存在嵌套实体问题。这是实体关系联合抽取的一个重要问题。抽取得到的关系三元组可以用于构建或丰富知识图谱, ...
【技术保护点】
【技术特征摘要】
1.一种基于实体森林的实体语义关系联合抽取方法,其特征在于,包括:步骤1、获取待识别实体语义关系的语料,作为当前文本;步骤2、将该当前文本进行分句和分词处理,得到句子及其对应的词序列,使用BERT模型对句子的词序列进行编码,得到该训练语料中句子的分布式表示;步骤3、对句子的该分布式表示进行序列标注,得到实体头部,作为实体树的根节点,以该根节点为循环神经网络模型的初始状态,依次输入句子中子词至该循环神经网络模型,以森林的形式识别嵌套实体,得到多棵嵌套实体树;步骤4、将该嵌套实体树的实体表示输入Transformer Decoder模块,通过多头注意力机制,得到该嵌套实体树中包含实体树间交互信息、实体和输入文本之间的交互信息的隐层向量;步骤5、将该隐层向量和该实体表示输入由该多棵嵌套实体树构成的分层三元组森林,获得该当前文本的实体语义关系三元组。2.如权利要求1所述的基于实体森林的实体语义关系联合抽取方法,其特征在于,包括:获取已标注〈头实体,关系,尾实体〉三元组标签的训练语料,作为当前文本执行该步骤2到该步骤4,并根据该步骤2得到的根节点和嵌套实体树以及该三元组标签,构建根节点损失和嵌套实体树损失,根据该步骤4得到的实体语义关系三元组与该三元组标签,构建三元组森林的损失;将该节点损失、该嵌套实体树损失和该三元组森林的损失加权求和,得到总损失,以该总损失训练该BERT模型、循环神经网络模型、Transformer Decoder模块和该分层三元组森林,训练完成后,执行该步骤1。3.如权利要求1或2所述的基于实体森林的实体语义关系联合抽取方法,其特征在于,该步骤2包括:使用经过预训练的该BERT模型对该词序列进行编码,获得该分布式表示H
e
:H
e
=BERT(concat(SW
sub
,W
p
,W
s
))该步骤3包括:通过线性层进行序列标注,获得各个子词属于实体头部的概率P,如下方公式,其中c2=2,P=softmax(dropout(H
e
)W
ner
+b
ner
)计算交叉熵损失函数,作为根节点损失L
B
,其中真实标注,其中真实标注对每个子词选择概率最大的标签y
B*
,预测为实体头部的子词n表示共有n个实体头部,同时作为实体树中的根节点;y
B*
=argmax(P)获得实体树的根节点在训练时,E
s+
=E
s
+E
s
′
,其中,真实实
体E的头部为而负采样得到的虚假实体头部为在预测时,E
S+
=E
S*
;使用H
e
中对应根节点位置的子词向量表示获得根节点的向量表示中对应根节点位置的子词向量表示获得根节点的向量表示中对应根节点位置的子词向量表示获得根节点的向量表示对每一个根节点的向量,使用该循环神经网络模型生成实体树,该循环神经网络模型的初始隐层状态为其记忆单元初始化为第t个时间步的输入为从实体头部开始第t个子词的隐层向量表示,记作其中,时间t∈[1,3];具体每个时间步计算如下:对每个时间步的隐层输出进行两次二分类:第一个分类判断该分支是否继续,继续为1,终止为0;第二个分类则判断当前节点是否已经构成一个实体,构成为1,未构成为0;使用二分类交叉熵损失函数进行训练,将真实标签记作y
EF
,计算所得损失函数为实体树分支预测的嵌套实体树损失L
EF
,每一个时间步是否形成实体的概率记为二分类中线性计算过程中的权重和偏置为在训练时,每一棵树的时间步长为该组嵌套实体中最长实体长度,而在预测时,为[0,0]的终止标记;步长为该组嵌套实体中最长实体长度,而在预测时,为[0,0]的终止标记;在预测时,以固定阈值0.5决定标记,大于该阈值记为1,小于则记为0;该步骤4包括:以根节点的向量表示H
S
代表嵌套实体森林的表示,H
S
和文本表示H
e
,通过Transformer解码器交互,获得具有交互信息的隐层输出Transformer解码器交互,获得具有交互信息的隐层输出H
d
=Trandformer_Decoder(H
s
,H
e
);该步骤5包括:对LSTM进行初始化,将初始隐层状态设为记忆单元初始化设为然后在第0时间步,将头实体的头部输入该循环神经网络模型,其后每一步的输入为上一步的预测的向量表示;如果上一步预测为实体头部start,则该步输入为对应嵌套实体树根节点的向量表示如果上一步预测为实体尾部end,则依
据其所处嵌套实体树,根据获得对应实体ent的向量表示e
ent
,作为该步的输入;如果上一步预测为关系rel,则由关系嵌入获得对应的关系向量表示r=Relation_Embedding(rel);每一步均经过一个LSTM单元:从LSTM输出的隐层单元出发,分别计算生成关系、实体的概率;如果该步生成关系,则使用下方公式获得第i个三元组序列/三元组树在时间步t生成关系的概率;其中,组成概率矩阵P
r
,,,,,,,而如果该时间步选择实体树或实体分支,则如下方公式所示,经过线性层,进一步融合句子文本上下文信息H
e
,采用sigmoid激活函数获得概率或其中,线性层的权重和偏置为层的权重和偏置为或表示为第i个三元组序列或三元组树在第t个时间步预测每个实体根节点e
s
或实体树分支的概率e
e
,分别对应序列标注时预测的实体头部或尾部:标注时预测的实体头部或尾部:在训练时,依据所计算概率保留部分非实体的负例子词,通过下式,由经过掩盖的实体概率和阈值筛选,获得实体头部、尾部的预测概率和阈值筛选,获得实体头部、尾部的预测概率和阈值筛选,获得实体头部、尾部的预测概率和阈值筛选,获得实体头部、尾部的预测概率和阈值筛选,获得实体头部、尾部的预测概率和阈值筛选,获得实体头部、尾部的预测
在预测实体头部选择根节点时,使用Root_Mask掩盖掉所有非实体树根节点的子词概率;在预测实体尾部实体树内部选择分支时,则使用Leaf_Mask掩盖掉非当前实体树分支的子词概率;在预测时通过下式,由预测标签和解码出预测的关系、实体:解码出预测的关系、实体:解码出预测的关系、实体:训练时则如下方公式所示,依据预测实体、关系的概率和P
r
,计算最终的损失函数L
LSG
:其中,h
s
、t
s
分别为头实体头部、尾实体头部,使用对应时间步的实体头部概率h
e
、t
e
分别为头实体尾部、尾实体尾部,使用对应时间步关系r概率为P
r
;实体森林模块的根节点预测损失L
S
、实体树分支预测的损失函数记作L
ET
和分层三元组生成模块损失函数L
LSG
加权求和获得最终的总损失L,以进行联合训练:L=w
B
×
L
B
+w
EF
×
L
EF
+w
LSG
×
L
LSG
。4.如权利要求1所述的基于实体森林的实体语义关系联合抽取方法,其特征在于,该步骤5包括,根据该当前文本的实体语义关系三元组,构建或丰富知识图谱,以用于问答模型或搜索推荐系统。5.一种基于实体森林的实体语义关系联合抽取系统,其特征在于,包括:初始模块,用于获取待识别实体语义关系的语料,作为当前文本;编码模块,用于将该当...
【专利技术属性】
技术研发人员:靳小龙,郭嘉丰,程学旗,王炫力,席鹏弼,廖华明,
申请(专利权)人:中国科学院计算技术研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。