一种单表建模实体关系抽取方法技术

技术编号:39290529 阅读:22 留言:0更新日期:2023-11-07 10:59
本发明专利技术公开了一种单表建模实体关系抽取方法,包括如下步骤:步骤1:将训练集输入抽取模型;步骤2:抽取模型构建当前句子的一张二维交互表,步骤3:将当前句子与三元组中全部的关系拼接成一个序列;步骤4:通过序列得到BERT模型的向量表示,并构建交互表;步骤5:将交互表与二维交互表通过改进的交叉熵损失函数对BERT模型进行权重调整;步骤6:重复步骤2

【技术实现步骤摘要】
一种单表建模实体关系抽取方法


[0001]本专利技术涉及语言处理
,尤其涉及一种单表建模实体关系抽取方法。

技术介绍

[0002]实体和关系的联合抽取是自然语言处理和知识图谱构建领域中的重要任务。常见的技术主要分为两种:其一是管道(Pipeline)式方法,将实体抽取与关系分类作为两个独立的模块,这种方法忽略了实体与关系的相关性,且实体抽取错误会影响关系抽取模块,容易产生级联错误;其二是联合(Joint)方法,通过共享参数或联合解码将实体抽取与关系分类模型有机结合,完成多任务的关系抽取。常用模型有TPLinker,和OneRel等联合抽取模型,然而,这些工作忽视了实体间交互、实体关系间交互作用,并增加了时间和空间的开销。
[0003]在专利技术专利【关系抽取联合模型训练方法、关系抽取方法、设备及介质】(申请号:202210503511.X)中,公开了一种关系抽取联合模型训练方法、关系抽取方法、设备及介质,此专利技术将联合文本二分类模型与关系抽取模型以得到联合模型,关系抽取分为离散的步骤。这样的方式忽略了实体与关系的相关性,且语义结果抽取错误会影响第二关系结果及第二客体结果,容易产生级联错误;并且离散的步骤而不是有机的结合限制了模型的能力。
[0004]在专利技术专利【一种从文本中进行关系抽取的方法、关系抽取模型及介质】(申请号:202210584720.1)中,从文本中进行关系抽取。这样的方式有以下不足:

仍然是分步进行抽取,忽略了实体与关系的相关性;

赖于预设文本,如果预设文本的预设信息不足会降低效果;

预设文本中不同实体词语的对应结果向量串联过程十分消耗资源。
[0005]TPLinker模型将联合抽取建模为词元对之间的链接问题,同时抽取主实体和客实体,并通过使用CasRel模型采用的层叠式指针标注,在每种关系类型下对齐实体对的边界标记。OneRel模型将联合提取作为一个细粒度的三重分类问题,模型由一个基于评分的分类器和一个针对关系的角标策略组成。然而,TPLinker、CasRel模型采用的层叠式指针标注和OneRel的针对关系的角标策略,都需要为每个其建模的空间复杂度都为O((N+M)2),UniRel模型将建模的空间复杂度降低到O((N
×
M
×
N)),可是只能应用与单个词元的实体。

技术实现思路

[0006]针对现有技术中的不足,本专利技术提供了一种单表建模实体关系抽取方法,以解决现有技术中容易产生级联错误、资源消耗大的技术问题。
[0007]本专利技术提供了一种单表建模实体关系抽取方法,包括如下步骤:
[0008]步骤1:对训练集进行预处理,处理后的训练集作为抽取模型输入参数;
[0009]步骤2:抽取模型构建当前句子的一张二维交互表,
[0010]其中,二维交互表包括:主实体

客实体交互表、主实体

关系交互表和客实体

关系交互表;
[0011]步骤3:将当前句子与三元组中全部的关系拼接成一个序列;
[0012]步骤4:将序列作为抽取模型中基于自注意力模型的预训练语言模型编码器的输
入,得到BERT模型的向量表示,并根据BERT模型的向量表示构建交互表;
[0013]步骤5:将交互表与二维交互表通过改进的交叉熵损失函数进行比较,并反馈给BERT模型,BERT模型根据改进的交叉熵损失函数的损失值进行权重调整;
[0014]步骤6:重复步骤2

5直至抽取模型训练完成;
[0015]步骤7:将待抽取的未知文本作为抽取模型的输入,得到交互表;
[0016]步骤8:对交互表进行解码,得到抽取出的关系三元组。
[0017]进一步地,所述二维交互表包括四个区域,分别为:左上区域、右上区域、左下区域、右下区域;
[0018]其中,左上区域为主实体

客实体交互表;右上区域为主实体

关系交互表;左下区域为客实体

关系交互表;右下区域为空,
[0019]二维交互表的列数为主实体

客实体交互表的列数与主实体

关系交互表的列数之和;二维交互表的行数为主实体

客实体交互表的行数与客实体

关系交互表的行数之和。
[0020]进一步地,所述二维交互表中每个元素的值表示对应的实体和关系、实体和另一个实体是否存在交互,当存在关系是赋予一种标识;当不存在关系时赋予另一种标识。
[0021]进一步地,所述抽取模型根据当前句子中每个词构建当前句子的二维交互表。
[0022]进一步地,所述主实体

客实体交互表中的交互标志函数为:
[0023][0024]式中,sub
i
为主实体,obj
i
为客实体,分别由语句中单个或多个连续的词元组成;r为主客实体对(sub
i
,obj
i
)的关系;R为关系合;T为三元组合集。
[0025]进一步地,所述实体

关系交互表中的交互标志函数为:
[0026][0027]式中,sub为主实体;obj为客实体;r为主客实体对(sub
i
,obj
i
)的关系;E为实体合集;T为三元组合集。
[0028]进一步地,所述主实体

关系交互表中的交互标志函数为:
[0029][0030]式中,sub为主实体;obj为客实体;r为主客实体对(sub
i
,obj
i
)的关系;E为实体合集;T为三元组合集。
[0031]进一步地,所述交互表的计算公式为:
[0032][0033]式中,是交互表;T是注意力头的数量;Q
t
为BERT模型查询向量;d
h
为BERT模型隐藏层维度;K
t
为BERT模型中相关性得分。
[0034]进一步地,所述改进的交叉熵损失函数为:
[0035][0036]式中,A与B分别为两个需要比较相似度、进行损失函数计算的矩阵;M为关系总数,N为句子长度,M+N为矩阵的边长;
[0037]a
ij
与b
ij
分别为矩阵A和矩阵B中原本的元素值;a

ij
与b

ij
分别为修正后的元素值,具体公式如下:
[0038]a

ij
=m
a
a
ij
[0039]b

ij
=m
b
b
ij
[0040][0041][0042]本专利技术的有益效果:本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种单表建模实体关系抽取方法,其特征在于,包括如下步骤:步骤1:对训练集进行预处理,处理后的训练集作为抽取模型输入参数;步骤2:抽取模型构建当前句子的一张二维交互表,其中,二维交互表包括:主实体

客实体交互表、主实体

关系交互表和客实体

关系交互表;步骤3:将当前句子与三元组中全部的关系拼接成一个序列;步骤4:将序列作为抽取模型中基于自注意力模型的预训练语言模型编码器的输入,得到BERT模型的向量表示,并根据BERT模型的向量表示构建交互表;步骤5:将交互表与二维交互表通过改进的交叉熵损失函数进行比较,并反馈给BERT模型,BERT模型根据改进的交叉熵损失函数的损失值进行权重调整;步骤6:重复步骤2

5直至抽取模型训练完成;步骤7:将待抽取的未知文本作为抽取模型的输入,得到交互表;步骤8:对交互表进行解码,得到抽取出的关系三元组。2.如权利要求1所述的单表建模实体关系抽取方法,其特征在于,所述二维交互表包括四个区域,分别为:左上区域、右上区域、左下区域、右下区域;其中,左上区域为主实体

客实体交互表;右上区域为主实体

关系交互表;左下区域为客实体

关系交互表;右下区域为空,二维交互表的列数为主实体

客实体交互表的列数与主实体

关系交互表的列数之和;二维交互表的行数为主实体

客实体交互表的行数与客实体

关系交互表的行数之和。3.如权利要求1或2所述的单表建模实体关系抽取方法,其特征在于,所述二维交互表中每个元素的值表示对应的实体和关系、实体和另一个实体是否存在交互,当存在关系是赋予一种标识;当不存在关系时赋予另一种标识。4.如权利要求1所述的单表建模实体关系抽取方法,其特征在于,所述抽取模型根据当前句子中每个词构建当前句子的二维交互表。5.如权利要求1所述的单表建模实体关系抽取方法,其特征在于,所述主实体

客...

【专利技术属性】
技术研发人员:王东升刘莎冯越周淼淼
申请(专利权)人:江苏科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1