联合实体关系抽取方法、装置及存储介质制造方法及图纸

技术编号:22884064 阅读:25 留言:0更新日期:2019-12-21 07:20
本方案涉及大数据方面,提供一种联合实体关系抽取方法、装置及存储介质,方法包括以下步骤:利用Bi‑LSTM模型将文本语句编码为向量的形式;使用LSTM模型对文本语句形成的向量进行标注,生成标注序列,为每个字的向量分配一个用于提取结果的标签,标签由三部分组成,即实体中的字的位置、关联关系类型和关系角色这三部分;将具有相同关联关系类型的实体组合成三元组以获得关系抽取结果。本发明专利技术采用Bi‑LSTM模型对文本语句进行编码,提高捕获每个字的语义信息的有效性。把联合抽取任务转换为标注问题,通过标注的形式来提取三元组,能够简单地使用神经网络模型来建模,提高了构建知识图谱的效率。

Extraction method, device and storage medium of joint entity relationship

【技术实现步骤摘要】
联合实体关系抽取方法、装置及存储介质
本专利技术涉及云技术,具体说,涉及联合实体关系抽取方法、装置及存储介质。
技术介绍
传统的处理这种处理实体和关系抽取的方法是串联式的。即先抽取实体,然后识别实体间的关系。这种分开来处理的方式比较简单,而且各个模块都比较灵活。但是这种方法忽视了两个任务之间的联系,实体识别的结果可能会影响关系的抽取。实体关系抽取作为信息抽取领域的重要研究课题,其主要目的是抽取句子中已标记实体对之间的语义关系,即在实体识别的基础上确定无结构文本中实体对间的关系类别串联抽取方法(分离式抽取模型)将该问题分解为两个串联的子任务,即先采用实体识别模型抽取实体,再采用关系抽取模型得到实体对之间的关系,其优势是便于单独优化实体识别任务和关系抽取任务,但缺点是它们以获取三元组的中间产物(实体或者关系类型)为目标,而实体识别的结果会进一步影响关系抽取的结果,导致误差累积。
技术实现思路
为解决以上技术问题,本专利技术提供联合实体关系抽取方法,应用于电子装置,包括以下步骤:步骤S1,利用Bi-LSTM本文档来自技高网...

【技术保护点】
1.一种联合实体关系抽取方法,应用于电子装置,其特征在于,包括以下步骤:/n步骤S1,利用Bi-LSTM模型将文本语句编码为向量的形式,生成文本向量;/n步骤S2,使用LSTM模型对所述文本向量进行标注,生成标注序列,所述标注序列为所述文本向量中的每个字向量分配一个标签,其中,用于关系抽取的实体的标签由三部分组成,即实体中的字的位置、关联关系类型和关系角色这三部分;/n步骤S3,将具有相同关联关系类型的实体组合成三元组以获得关系抽取结果。/n

【技术特征摘要】
1.一种联合实体关系抽取方法,应用于电子装置,其特征在于,包括以下步骤:
步骤S1,利用Bi-LSTM模型将文本语句编码为向量的形式,生成文本向量;
步骤S2,使用LSTM模型对所述文本向量进行标注,生成标注序列,所述标注序列为所述文本向量中的每个字向量分配一个标签,其中,用于关系抽取的实体的标签由三部分组成,即实体中的字的位置、关联关系类型和关系角色这三部分;
步骤S3,将具有相同关联关系类型的实体组合成三元组以获得关系抽取结果。


2.根据权利要求1所述的联合实体关系抽取方法,其特征在于:
步骤S2包括,使用第一符号来分别表示实体中字的位置信息,其中第一符号包括表示实体的开始的字的符号,表示实体的中间的字的符号,表示实体的结束的字的符号,以及表示单个的字的符号;
采用第二符号来分别表示不同的关联关系类型;
采用第三符号表示不同关系角色;所述关系角色是指三元组中的第一实体或第二实体;采用第四符号标注与抽取关系无关的字。


3.根据权利要求1所述的联合实体关系抽取方法,其特征在于:
所述Bi-LSTM编码是包括前向的LSTM与后向的LSTM结合来表示文本语句的编码,文本语句对应有前向和后向的细胞状态:
对于前向,文本语句按照正序输入细胞状态中,得到第一组状态输出向量{hL0,hL1,hL2,…hLn};
对于反向,文本语句按照倒序输入细胞状态中,得到第二组状态输出向量{hR0,hR1,hR2,…hRn};
然后Bi-LSTM模型将前向和后向的向量进行拼接融合得到{[hL0,hR0],[hL1,hR1],[hL2,hR2],…[hLn,hRn]}。


4.根据权利要求1所述的联合实体关系抽取方法,其特征在于:
Bi-LSTM模型的公式如下:
it=δ(Wwiwt+Whiht-1+Wcict-1+bi)
ft=δ(Wwfwt+Whfht-1+Wcfct-1+bf)
zt=tanh(Wwcwt+Whcht-1+bc)
ct=ftct-1+itzt
Ot=δ(Wwowt+Whoht-1+Wcoct+bo)
ht=Ottanh(ct)
其中,it是输入门;
ft是遗忘门;
zt是更新门;
Ot是输出门;
ht-1是t-1时刻的隐藏向量;
ht是t时刻的隐藏向量;
Wwi、Wwf、Wwc、Whi、Whf、Whc、Wci、Wcf、Wwo、Who、Wco均为权值矩阵;
bi、bf、bc、bo是偏置项;
t是时刻,每一个时刻对应输入一个字;
ct是t时刻的细胞状态;
ct-1是t-1时刻的细胞状态;
δ表示sigmoid激活函数;
tanh是激活函数;
wt是一个语句...

【专利技术属性】
技术研发人员:金戈
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1