实体关系抽取方法、装置、电子设备及存储介质制造方法及图纸

技术编号:33435600 阅读:11 留言:0更新日期:2022-05-19 00:24
本发明专利技术涉及人工智能技术,揭露了一种实体关系抽取方法,包括:获取关系实例文本,利用预训练的编码模型对关系实例文本进行语义编码,得到语义向量序列,对语义向量序列进行标签预测,根据预测结果获取标准标签序列,并对标准标签序列进行实体标注,得到实体标注结果,获取预设的关系集合,基于关系集合对语义向量序列进行关系预测,得到关系预测结果,对实体标注结果及关系预测结果进行拼接组合,得到实体关系对集合,对实体关系对集合进行头实体及尾实体概率识别,根据识别结果从实体关系对集合中选取标准实体关系对。本发明专利技术还提出一种实体关系抽取装置、电子设备以及计算机可读存储介质。本发明专利技术可以解决实体关系抽取准确率不高的问题。问题。问题。

【技术实现步骤摘要】
实体关系抽取方法、装置、电子设备及存储介质


[0001]本专利技术涉及人工智能
,尤其涉及一种实体关系抽取方法、装置、电子设备及计算机可读存储介质。

技术介绍

[0002]实体和实体之间的关系联合抽取模型的结构一般分为两种,一种为管道型(pipeline),另一种为端到端的结构。前者一般先抽取实体,同时判定实体的类别,然后对每对候选实体进行关系分类,得到关系抽取三元组结果,管道型的一个明显的缺点是误差传递的问题,因为实体识别和关系抽取两个任务本身独立完成,导致两部分信息不能充分共享,实体关系抽取准确率较低。端到端的模型一般设计成将实体识别的结果作为模型的隐藏层结果,将实体识别的损失和关系分类的损失相加作为整个模型的损失函数。端到端模型可以有效减少管道模型在实体识别(NER)和关系抽取(RE)模型之间误差传播问题并且充分利用NER和RE两部分任务间的有用信息,提高最终的抽取效果,但在实际的应用中,经常出现一个句子实例中出现多个关系的情况,多个关系还可能重叠,即同一个实体可能出现于不同的关系类别中,也会使得实体关系抽取的准确率不高。

技术实现思路

[0003]本申请提供了一种实体关系抽取方法、装置、电子设备及存储介质,以解决实体关系抽取准确率不高的问题。
[0004]第一方面,本申请提供了一种实体关系抽取方法,所述方法包括:
[0005]获取关系实例文本,利用预训练的编码模型对所述关系实例文本进行语义编码,得到语义向量序列;
[0006]对所述语义向量序列进行标签预测,根据预测结果获取标准标签序列,并对所述标准标签序列进行实体标注,得到实体标注结果;
[0007]获取预设的关系集合,基于所述关系集合对所述语义向量序列进行关系预测,得到关系预测结果;
[0008]对所述实体标注结果及所述关系预测结果进行拼接组合,得到实体关系对集合,对所述实体关系对集合进行头实体及尾实体概率识别,根据识别结果从所述实体关系对集合中选取标准实体关系对。
[0009]详细地,所述利用预训练的编码模型对所述关系实例文本进行语义编码,得到语义向量序列,包括:
[0010]对所述关系实例文本进行分词,得到原始分词序列,在所述原始分词序列中添加间隔标识,得到标准分词序列;
[0011]利用所述编码模型中的嵌入向量表示层生成所述标准分词序列中每个分词的组合向量;
[0012]利用所述编码模型中的编码器层对每个分词的组合向量进行语义特征编码,得到
所有分词的语义特征向量,利用所述编码模型中的池化层对所述语义特征向量及所述间隔标识进行向量排列,得到所述语义向量序列。
[0013]详细地,所述利用所述编码模型中的嵌入向量表示层生成所述标准分词序列中每个分词的组合向量,包括:
[0014]利用所述嵌入向量表示层将所述标准分词序列中每个分词转化为token向量、位置向量及序列标记向量;
[0015]利用下述公式组合每个分词的所述token向量、所述位置向量及所述序列标记向量,得到每个分词的组合向量embedding:
[0016]embedding=embedding
tokens
+embedding
position
+embedding
seg type
[0017]其中,embedding
tokens
为所述token向量,embedding
position
为所述位置向量,embedding
seg type
为所述序列标记向量。
[0018]详细地,所述对所述语义向量序列进行标签预测,根据预测结果获取标准标签序列,包括:
[0019]对所述语义向量序列中每个分词对应的语义特征向量进行标签预测,得到多个标签序列,其中,每个标签序列中包括每个分词的预测标签及所述预测标签对应的预测分数;
[0020]利用所述预测分数对所述多个标签序列中的预测标签进行筛选及排序,得到原始标签序列集合;
[0021]利用预设的目标函数从所述原始标签序列集合中选取目标序列作为所述标准标签序列。
[0022]详细地,所述利用预设的目标函数从所述原始标签序列集合中选取目标序列作为所述标准标签序列,包括:
[0023]利用所述目标函数对所述原始标签集合进行概率优化,并选取使所述目标函数最大的目标序列为所述标准标签序列;
[0024]所述目标函数如下所示:
[0025][0026]其中,y
X
为所述原始标签序列集合,s(h,y)表示所述原始标签序列集合其中一个序列y的得分,p(y|h)表示序列y的条件概率。
[0027]详细地,所述基于所述关系集合对所述语义向量序列进行关系预测,得到关系预测结果,包括:
[0028]提取所述语义向量序列中间隔标识对应的标识向量,并利用预设的分类函数得到所述标识向量在所述关系集合中存在的预测关系及所述预测关系的概率;
[0029]基于所述预测关系的概率,利用预设的标签函数对所述预测关系进行关系分类,得到所述关系预测结果。
[0030]详细地,所述对所述实体标注结果及所述关系预测结果进行拼接组合,得到实体关系对集合,对所述实体关系对集合进行头实体及尾实体概率识别,根据识别结果从所述实体关系对集合中选取标准实体关系对,包括:
[0031]根据所述关系集合将所述关系预测结果中的关系转化为嵌入关系;
[0032]将所述嵌入关系及所述实体标注结果中的实体进行随机组合,得到所述实体关系对集合;
[0033]利用预设的实体概率公式计算所述实体关系对集合中头实体及尾实体的概率,并根据所述概率选择满足预设条件的实体关系对作为所述标准实体关系对。
[0034]第二方面,本申请提供了一种实体关系抽取装置,所述装置包括:
[0035]语义编码模块,用于获取关系实例文本,利用预训练的编码模型对所述关系实例文本进行语义编码,得到语义向量序列;
[0036]实体标注模块,用于对所述语义向量序列进行标签预测,根据预测结果获取标准标签序列,并对所述标准标签序列进行实体标注,得到实体标注结果;
[0037]关系预测模块,用于获取预设的关系集合,基于所述关系集合对所述语义向量序列进行关系预测,得到关系预测结果;
[0038]实体关系对抽取模块,用于对所述实体标注结果及所述关系预测结果进行拼接组合,得到实体关系对集合,对所述实体关系对集合进行头实体及尾实体概率识别,根据识别结果从所述实体关系对集合中选取标准实体关系对。
[0039]第三方面,提供了一种实体关系抽取设备,包括处理器、通信接口、存储器和通信总线,其中,处理器、通信接口、存储器通过通信总线完成相互间的通信;
[0040]存储器,用于存放计算机程序;
[0041]处理器,用于执行存储器上所存放的程序时,实现第一方面任一项实施例所述的实体关系抽取本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种实体关系抽取方法,其特征在于,所述方法包括:获取关系实例文本,利用预训练的编码模型对所述关系实例文本进行语义编码,得到语义向量序列;对所述语义向量序列进行标签预测,根据预测结果获取标准标签序列,并对所述标准标签序列进行实体标注,得到实体标注结果;获取预设的关系集合,基于所述关系集合对所述语义向量序列进行关系预测,得到关系预测结果;对所述实体标注结果及所述关系预测结果进行拼接组合,得到实体关系对集合,对所述实体关系对集合进行头实体及尾实体概率识别,根据识别结果从所述实体关系对集合中选取标准实体关系对。2.如权利要求1所述的实体关系抽取方法,其特征在于,所述利用预训练的编码模型对所述关系实例文本进行语义编码,得到语义向量序列,包括:对所述关系实例文本进行分词,得到原始分词序列,在所述原始分词序列中添加间隔标识,得到标准分词序列;利用所述编码模型中的嵌入向量表示层生成所述标准分词序列中每个分词的组合向量;利用所述编码模型中的编码器层对每个分词的组合向量进行语义特征编码,得到所有分词的语义特征向量,利用所述编码模型中的池化层对所述语义特征向量及所述间隔标识进行向量排列,得到所述语义向量序列。3.如权利要求2所述的实体关系抽取方法,其特征在于,所述利用所述编码模型中的嵌入向量表示层生成所述标准分词序列中每个分词的组合向量,包括:利用所述嵌入向量表示层将所述标准分词序列中每个分词转化为token向量、位置向量及序列标记向量;利用下述公式组合每个分词的所述token向量、所述位置向量及所述序列标记向量,得到每个分词的组合向量embedding:embedding=embedding
tokens
+embedding
position
+embedding
seg type
其中,embedding
tokens
为所述token向量,embedding
position
为所述位置向量,embedding
seg type
为所述序列标记向量。4.如权利要求1所述的实体关系抽取方法,其特征在于,所述对所述语义向量序列进行标签预测,根据预测结果获取标准标签序列,包括:对所述语义向量序列中每个分词对应的语义特征向量进行标签预测,得到多个标签序列,其中,每个标签序列中包括每个分词的预测标签及所述预测标签对应的预测分数;利用所述预测分数对所述多个标签序列中的预测标签进行筛选及排序,得到原始标签序列集合;利用预设的目标函数从所述原始标签序列集合中选取目标序列作为所述标准标签序列。5.如权利要求4所述的实体关系抽取方法,其特征在于...

【专利技术属性】
技术研发人员:杜娟刘轶
申请(专利权)人:深港产学研基地北京大学香港科技大学深圳研修院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1