【技术实现步骤摘要】
面向语句的特征维度增强的实体和关系知识提取方法及装置
[0001]本专利技术属于自然语言处理
,具体涉及一种面向语句的特征维度增强的实体和关系知识提取方法及装置。
技术介绍
[0002]从非结构化的文本中抽取实体和关系任务的为后续自动构建知识图提供了主要的知识来源,是知识图谱构建的一个必要步骤。这些抽取出来的知识一般以(主体,关系,客体)或(s,r,o)这样的三元组形式存在。其中,三元组中的主体与客体是知识图谱中由某种关系所联系的两个实体。
[0003]传统的三元组抽取方法使用的是流水线方式,他将抽取任务分为两步,先是对输入的语句进行命名实体预测(NER),然后对预测出的实体对进行关系分类(RC)。但是这种方法由于有严格的顺序要求,其存在的明显问题就是会导致错误传播。为了解决这一问题,研究者们提出了实体关系联合抽取的方法。近期的研究结果表明,联合抽取的方法由于可以更好的整合实体和关系的信息,总体提取效果的确比流水线方式表现的更好。近期基于深度学习的联合抽取方法因其突出的效果,使得该类方法最近十分的流行。但是,关系实体三元组抽取依旧存在以下具有挑战性的问题:
[0004]1)重叠三元组,其包括EntityPairOverlap(EPO)and SingleEntityOverlap(SEO)两种重叠,如图1所示。前人为了解决这一问题,许多人采用了基于主客体分解的方式提取,但是这样的方法容易导致错误传播问题。
[0005]2)错误传播,该错误的产生来源于严格的预测顺序过程。例如流水线方式,为 ...
【技术保护点】
【技术特征摘要】
1.一种面向语句的特征维度增强的实体和关系知识提取方法,其特征在于,包括下述步骤:对输入语句进行向量化,得到具有上下文语义特征的向量化语句;将所述向量化语句进行实体探测与特征化以及关系探测与特征化,分别得到实体特征信息与关系特征信息;所述实体特征信息是指从向量化语句中抽取的主体信息和客体信息;所述关系特征信息是指向量化语句中抽取出的主体和客体之间存在的关联特征;将所述向量化语句进行实体与关系联合预测,并将实体特征信息与关系特征信息作为辅助维度特征信息进行信息加强处理,得到实体与关系联合预测的特征信息;将所述实体与关系的联合预测的特征信息进行拼接或者链路预测,最终形成三元组。2.根据权利要求1所述面向语句的特征维度增强的实体和关系知识提取方法,其特征在于,所述对输入语句进行向量化,具体为:将输入语句中的每个单词通过Bert模型中的编码器提取其隐匿的特征,将输入语句转换为具有上下文语义特征的向量化语句,所述向量化语句H的表达式如下:H=Bert[{x1,x2,...,x
n
,...,x
m
}*mask]H=[h1,h2,..,h
n
,...,h
m
]其中,x1,x2,...,x
n
,...,x
m
是输入语句中每个词映射到Bert模型对应字典的ID,n代表输入语句序列长度,m是语句向量化并且填充补齐后的语句总长度,mask是输入语句中实际有效的语句信息,h1,h2,..,h
n
,...,h
m
是融入了上下文信息的词向量。3.根据权利要求1所述面向语句的特征维度增强的实体和关系知识提取方法,其特征在于,所述实体指的是主体和客体;所述实体探测与特征化,具体为:将已向量化的语句H输入进一个全连接层中,计算出实体的开始位置概率和结束位置概率,如果开始位置的概率大于预设的第一阈值,则将该开始位置确定为所述向量化语句中实体的开始位置;同理,如果结束位置的概率大于预设的第二阈值,则将该结束位置确定为所述向量化语句中实体的结束位置;同时,全连接层的神经网络会根据训练集的标签信息进行训练,并且不断的对的可训练权重值W和b进行调整;所述实体的开始位置概率和结束位置概率的计算公式如下:p
istart_sub(obj)
=sigmoid(W
start
h
i
+b
start
)p
iend_sub(obj)
=sigmoid(W
end
h
i
+b
end
)其中,p
istart_sub(obj)
是输入语句中第i个位置标记为实体开始位置概率,p
iend_sub(obj)
是输入语句中第i个位置标记为实体结束位置概率;h
i
是编码器层的输出结果,W
start
和b
start
为计算实体开始位置概率的可训练权重值,W
end
和b
end
为计算实体结束位置概率的可训练权重值,sigmoid为激活函数;确定实体开始位置概率和实体结束位置概率后,抽取出主体信息T
isub
和客体信息T
iobj
,公式为:T
isub
=(p
istart_sub
,p
iend_sub
)T
iobj
=(p
istart_obj
,p
iend_obj
)其中,p
istart_sub
为第i个位置标记为主体开始位置概率,p
iend_sub
为第i个位置标记为主体结束位置概率;p
istart_obj
第i个位置标记为客体开始位置概率,p
iend_obj
为第i个位置标记
为客体结束位置概率。4.根据权利要求1所述面向语句的特征维度增强的实体和关系知识提取方法,其特征在于,所述关系探测与特征化,具体为:将所有预设的关系标签嵌入到一个高维向量中,然后通过一个线性映射层,将最终结果表示为最具关系的初始关系节点嵌入,所述初始关系节点嵌入的计算公式为:R
m
=W
r
*E([r1,r2,...,r
m
])+b
r
其中,r
i
为预定义关系中关系指标的独热向量,m为预定义关系的个数,E为关系嵌入矩阵,W
r
和b
r
为关系节点预定义过程的可训练参数,R
m
为初始关系节点,是一个高维的关系向量;预测特征向量化输入语句中所包含的初始关系节点信息,首先在初始语句中加入已得到的初始关系节点信息,将加入了初始关系节点信息的初始语句一起加入到一个全连接层中进行神经网络计算,再通过sigmoid函数最终获得关系信息特征;同时,高维特征向量在不断的训练下W
r
、b
r
权值发生改变,进而确定关系信息的特征,所述关系信息特征计算公式如下:其中,为前一步中得出的高维关系向量,h
i
...
【专利技术属性】
技术研发人员:李树栋,黄倩岚,吴晓波,韩伟红,唐可可,
申请(专利权)人:广州大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。