基于模型训练的关系抽取方法、装置、电子设备及介质制造方法及图纸

技术编号:38230648 阅读:7 留言:0更新日期:2023-07-25 17:58
本发明专利技术涉及自然语言领域,揭露一种基于模型训练的关系抽取方法、装置、电子设备及存储介质,所述方法包括:将预设字符插入训练文本及待抽取文本的实体对前后,得到目标训练文本及目标待抽取文本;利用预设模型对目标训练文本中实体对进行编码,并拼接编码后的向量,得到实体对拼接向量,计算实体对拼接向量的损失值;根据损失值调整所述预设模型的参数,直至损失值符合预设损失阈值,得到训练完成的预设模型;利用训练完成的预设模型,抽取目标待抽取文本的目标实体拼接向量;计算目标实体拼接向量与预设样本表示向量的相似度,并将相似度最高的预设样本表示向量的实体关系作为待抽取文本的实体关系。本发明专利技术可以提高三元组实体关系抽取的效率。关系抽取的效率。关系抽取的效率。

【技术实现步骤摘要】
基于模型训练的关系抽取方法、装置、电子设备及介质


[0001]本专利技术涉及自然语言领域,尤其涉及一种基于模型训练的关系抽取方法、装置、电子设备及可读存储介质。

技术介绍

[0002]随着技术的发展,知识图谱被应用于越来越多的领域,而构建知识图谱最主要的就是构建三元组,其中,三元组指的是形如(s,p,o)的集合,s是实体,o可以是实体或属性值,p是两个实体的关系或实体的属性,例如,从“人身安全险的受益人是小明”中可以抽取(人身安全险,受益人,小明)三元组。
[0003]目前常见的三元组关系抽取方法多为先抽取实体,然后根据一些公开的标注数据判断两两实体之间的关系,但关系抽取任务由于不同领域的实体之间关系会各不相同,所以在构建垂直领域知识图谱时需要标注大量关系抽取的数据,造成三元组关系抽取的工作量变大,关系抽取效率较低。

技术实现思路

[0004]本专利技术提供一种基于模型训练的关系抽取方法、装置、电子设备及可读存储介质,其目的在于提高三元组实体关系抽取的效率。
[0005]为实现上述目的,本专利技术提供的一种基于模型训练的关系抽取方法,所述方法包括:
[0006]获取训练文本及待抽取文本,分别识别所述训练文本及所述待抽取文本中的训练文本实体对及待抽取文本实体对,并将预设字符插入至所述训练文本实体对前与所述训练文本实体对后,得到目标训练文本,将预设字符插入至所述待抽取文本实体对前与所述待抽取文本实体对后,得到目标待抽取文本;
[0007]利用预设的语义表征模型对所述目标训练文本中的训练文本实体对进行编码,得到所述目标训练文本中训练文本实体对对应的第一实体编码向量及第二实体编码向量;
[0008]拼接所述第一实体编码向量及所述第二实体编码向量,得到实体对拼接向量,并计算所述实体对拼接向量的损失值;
[0009]根据所述损失值调整所述语义表征模型的参数,并返回所述利用预设的语义表征模型对所述目标训练文本中的训练文本实体对进行编码,得到所述目标训练文本中训练文本实体对对应的第一实体编码向量及第二实体编码向量的步骤,直至所述损失值符合预设损失阈值,得到训练完成的语义表征模型;
[0010]利用所述训练完成的语义表征模型,抽取所述目标待抽取文本的目标实体拼接向量;
[0011]利用余弦相似度计算所述目标实体拼接向量与预设样本表示向量的相似度,并将相似度最高的预设样本表示向量的实体关系作为所述待抽取文本的实体关系。
[0012]可选地,所述利用预设的语义表征模型对所述目标训练文本中的训练文本实体对
进行编码,得到所述目标训练文本中训练文本实体对对应的第一实体编码向量及第二实体编码向量,包括:
[0013]利用预设的语义表征模型对所述目标训练文本中实体对逐字进行编码处理,得到字向量序列;
[0014]提取所述目标训练文本中实体对的特征向量,得到第一词向量序列及第二词向量序列;
[0015]根据所述词向量序列的词字数分别对所述第一词向量序列及所述第二词向量序列进行扩展,得到与所述字向量序列对齐的第一对齐词向量序列及第二对齐词向量序列;
[0016]分别将所述第一对齐词向量序列及所述第二对齐词向量序列与预设的变换矩阵进行叉乘,得到与所述字向量序列维度相同的第一目标词向量序列及第二目标词向量序列;
[0017]分别将所述第一目标词向量序列及所述第二目标词向量序列与对应的字向量序列进行相加,得到第一字词向量序列及第二字词向量序列;
[0018]对所述目标训练文本中实体对的每一个文字进行位置索引编码,得到文本向量位置编码;
[0019]分别将所述第一字词向量序列及所述第二字词向量序列与对应所述文本向量位置编码进行相加,得到第一文本拼接向量及第二文本拼接向量,并利用所述预设的语义表征模型中的编码层分别对所述第一文本拼接向量及所述第二文本拼接向量进行编码,得到第一实体编码向量及第二实体编码向量。
[0020]可选地,所述计算所述实体对拼接向量的损失值,包括:
[0021]利用下述损失函数计算所述实体对拼接向量的损失值L:
[0022][0023]其中,x
A
表示任意一个实体对拼接向量,T表示转置矩阵,x
B
表示与x
A
对应的相同关系实体对拼接向量,x
C
表示与x
A
对应的非相同关系实体对拼接向量,i表示x
c
的实体对序号,N表示x
B
对应的实体对的数量。
[0024]可选地,所述分别识别所述训练文本及所述待抽取文本中的训练文本实体对及待抽取文本实体对,包括:
[0025]利用预设的编码模型分别对所述训练文本及所述待抽取文本进行编码,得到训练文本向量及待抽取文本向量;
[0026]利用预设的自注意力机制分别计算所述训练文本向量及所述待抽取文本向量的权重,得到带权重的训练文本向量及带权重的待抽取文本向量;
[0027]利用预设的半指针半标注预测模型分别对所述带权重的训练文本向量及带权重的待抽取文本向量中的实体位置进行预测,得到训练文本实体对及待抽取文本实体对。
[0028]可选地,所述利用预设的半指针半标注预测模型分别对所述带权重的训练文本向量及带权重的待抽取文本向量中的实体位置进行预测,得到训练文本实体对及待抽取文本实体对,包括:
[0029]利用预设的半指针半标注预测模型中的开始指针及结束指针,分别从所述带权重
的训练文本向量及带权重的待抽取文本向量中筛选出对应的待选实体对的首尾位置;
[0030]根据所述待选实体对的首尾位置,对所述待选实体对进行位置编码,得到待选实体对位置编码向量;
[0031]将所述待选实体对位置编码向量分别与对应训练文本权重向量及待抽取文本权重向量进行点乘,得到训练文本加权求和向量及待抽取文本加权求和向量;
[0032]分别从所述训练文本加权求和向量及所述待抽取文本加权求和向量中筛选出不小于预设数值的目标训练加权求和向量及目标待抽取加权求和向量,并将与所述目标训练加权求和向量对应的待选实体对的首尾位置作为所述训练文本的实体对的首尾位置,得到训练文本实体对,将与所述目标待抽取加权求和向量对应的待选实体对的首尾位置作为所述待抽取文本的实体对的首尾位置,得到待抽取文本实体对。
[0033]可选地,所述利用余弦相似度计算所述目标实体拼接向量与预设样本表示向量的相似度,包括:
[0034]利用下述公式计算所述目标实体拼接向量与预设样本表示向量的相似度S:
[0035][0036]其中,A表示所述目标实体拼接向量,B表示所述预设样本表示向量,||表示所述目标实体拼接向量的大小,||表示所述预设样本表示向量的大小。
[0037]可选地,所述计算所述实体对拼接向量的损失值之前,所述方法包括:
[0038]获取预设数量的实体对拼接向量;
[0039]对所述实体对拼本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于模型训练的关系抽取方法,其特征在于,所述方法包括:获取训练文本及待抽取文本,分别识别所述训练文本及所述待抽取文本中的训练文本实体对及待抽取文本实体对,并将预设字符插入至所述训练文本实体对前与所述训练文本实体对后,得到目标训练文本,将预设字符插入至所述待抽取文本实体对前与所述待抽取文本实体对后,得到目标待抽取文本;利用预设的语义表征模型对所述目标训练文本中的训练文本实体对进行编码,得到所述目标训练文本中训练文本实体对对应的第一实体编码向量及第二实体编码向量;拼接所述第一实体编码向量及所述第二实体编码向量,得到实体对拼接向量,并计算所述实体对拼接向量的损失值;根据所述损失值调整所述语义表征模型的参数,并返回所述利用预设的语义表征模型对所述目标训练文本中的训练文本实体对进行编码,得到所述目标训练文本中训练文本实体对对应的第一实体编码向量及第二实体编码向量的步骤,直至所述损失值符合预设损失阈值,得到训练完成的语义表征模型;利用所述训练完成的语义表征模型,抽取所述目标待抽取文本的目标实体拼接向量;利用余弦相似度计算所述目标实体拼接向量与预设样本表示向量的相似度,并将相似度最高的预设样本表示向量的实体关系作为所述待抽取文本的实体关系。2.如权利要求1所述的基于模型训练的关系抽取方法,其特征在于,所述利用预设的语义表征模型对所述目标训练文本中的训练文本实体对进行编码,得到所述目标训练文本中训练文本实体对对应的第一实体编码向量及第二实体编码向量,包括:利用预设的语义表征模型对所述目标训练文本中实体对逐字进行编码处理,得到字向量序列;提取所述目标训练文本中实体对的特征向量,得到第一词向量序列及第二词向量序列;根据所述词向量序列的词字数分别对所述第一词向量序列及所述第二词向量序列进行扩展,得到与所述字向量序列对齐的第一对齐词向量序列及第二对齐词向量序列;分别将所述第一对齐词向量序列及所述第二对齐词向量序列与预设的变换矩阵进行叉乘,得到与所述字向量序列维度相同的第一目标词向量序列及第二目标词向量序列;分别将所述第一目标词向量序列及所述第二目标词向量序列与对应的字向量序列进行相加,得到第一字词向量序列及第二字词向量序列;对所述目标训练文本中实体对的每一个文字进行位置索引编码,得到文本向量位置编码;分别将所述第一字词向量序列及所述第二字词向量序列与对应所述文本向量位置编码进行相加,得到第一文本拼接向量及第二文本拼接向量,并利用所述预设的语义表征模型中的编码层分别对所述第一文本拼接向量及所述第二文本拼接向量进行编码,得到第一实体编码向量及第二实体编码向量。3.如权利要求1所述的基于模型训练的关系抽取方法,其特征在于,所述计算所述实体对拼接向量的损失值,包括:利用下述损失函数计算所述实体对拼接向量的损失值L:
其中,x
A
表示任意一个实体对拼接向量,T表示转置矩阵,x
B
表示与x
A
对应的相同关系实体对拼接向量,x
C
表示与x
A
对应的非相同关系实体对拼接向量,i表示x
C
的实体对序号,N表示x
B
对应的实体对的数量。4.如权利要求1所述的基于模型训练的关系抽取方法,其特征在于,所述分别识别所述训练文本及所述待抽取文本中的训练文本实体对及待抽取文本实体对,包括:利用预设的编码模型分别对所述训练文本及所述待抽取文本进行编码,得到训练文本向量及待抽取文本向量;利用预设的自注意力机制分别计算所述训练文本向量及所述待抽取文本向量的权重,得到带权重的训练文本向量及带权重的待抽取文本向量;利用预设的半指针半标注预测模型分别对所述带权重的训练文本向量及带权重...

【专利技术属性】
技术研发人员:杨坤王燕蒙李剑锋王少军
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1