实体关系的抽取方法及装置、电子设备、存储介质制造方法及图纸

技术编号:31379964 阅读:41 留言:0更新日期:2021-12-15 11:24
本申请公开了一种实体关系的抽取方法及装置、电子设备、存储介质,可应用于金融领域或其他领域,其中,所述方法包括:获取目标文本;将所述目标文本输入预训练语言表征模型Bert中,通过所述预训练语言表征模型Bert对所述目标文本进行处理,得到所述目标文本对应的编码;将所述目标文本对应编码输入预先训练好的目标神经网络模型中,通过所述目标神经网络模型抽取出所述目标文本中的各类关系数据,并基于所述目标文本的关系数据,抽取出所述目标文本中的各个实体数据;其中,所述目标神经网络模型预先利用多个文本样本及其对应的关系标注和实体标注进行训练得到;所述文本样本对应的关系标注和实体标注,均基于确定出的数据结构模式schema进行标注。构模式schema进行标注。构模式schema进行标注。

【技术实现步骤摘要】
实体关系的抽取方法及装置、电子设备、存储介质


[0001]本申请涉及数据抽取
,特别涉及一种实体关系的抽取方法及装置、电子设备、存储介质。

技术介绍

[0002]现在为了便于对数据进行关联,也便于直观的获取数据之间的管理关系,现今通常会利用数据库中的数据构建成相应的知识图谱。在利用已有的数据构建相应的知识图谱时,需要从数据中提取出实体以及实体间的关系,在基于实体以及实体间的关系,构建出知识图谱。
[0003]现有从文本数据中提取出实体间的关系以及实体的方式,主要是通过命名实体的方式抽取实体,并且通过指定的关系从文本数据中提取出实体间的关系。
[0004]但是这种方式,分别是对实体与实体间的关系进行抽取,没有充分利用实体识别与关系抽取的相关性,所以抽取到的结果的准确性较低。

技术实现思路

[0005]基于上述现有技术的不足,本申请提供了一种实体关系的抽取方法及装置、电子设备、存储介质,以解决现有的实体关系抽取方式的准确性较低的问题。
[0006]为了实现上述目的,本申请提供了以下技术方案:
[本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种实体关系的抽取方法,其特征在于,包括:获取目标文本;将所述目标文本输入预训练语言表征模型Bert中,通过所述预训练语言表征模型Bert对所述目标文本进行处理,得到所述目标文本对应的编码;将所述目标文本对应编码输入预先训练好的目标神经网络模型中,通过所述目标神经网络模型抽取出所述目标文本中的各类关系数据,并基于所述目标文本的关系数据,抽取出所述目标文本中的各个实体数据;其中,所述目标神经网络模型预先利用多个文本样本及其对应的关系标注和实体标注进行训练得到;所述文本样本对应的关系标注和实体标注,均基于确定出的数据结构模式schema进行标注。2.根据权利要求1所述的方法,其特征在于,所述目标神经网络模型包括第一神经网络模型以及第二神经网络模型,所述将所述目标文本对应编码输入预先训练好的目标神经网络模型中,通过所述目标神经网络模型抽取出所述目标文本中的各类关系数据,并基于所述目标文本的关系数据,抽取出所述目标文本中的各个实体数据,包括:将所述目标文本对应编码输入所述第一神经网络模型中,通过所述第一神经网络模型对所述目标文本对应的编码进行处理,得到所述目标文本中的各类关系数据;其中,所述第一神经网络模型预先利用所述文本样本及其对应的关系标注进行训练得到;将所述目标文本中的各类关系数据输入所述第二神经网络模型中,通过所述第二神经网络模型对所述目标文本中的关系数据进行处理,得到所述目标文本中的各个实体数据;其中,所述第二神经网络模型预先利用所述文本样本及其对应的实体标注进行训练得到。3.根据权利要求2所述的方法,其特征在于,所述第一神经网络模型由双向长短时记忆模型Bi

LSTM和逻辑回归模型Softmax组成,所述第二神经网络模型由预训练语言表征模型Bert、双向长短时记忆模型Bi

LSTM、条件随机场模型CRF以及逻辑回归模型Softmax组成。4.根据要求2所述的方法,其特征在于,所述第一神经网络模型的训练方法,包括:基于先验知识确定出数据结构模式schema;获取满足所述数据结构模式schema的多个所述文本样本;基于所述数据结构模式schema,标注各个所述文本样本对应的关系标注;分别将各个所述文本样本输入第一初始模型中,通过所述第一初始模型对所述文本样本进行处理,得到当前所述文本样本对应的预测关系数据;基于所述文本样本对应的关系标注以及当前所述文本样本对应的预测关系数据的对比结果,判断当前所述第一初始模型的输出结果准确率是否满足第一预设要求;若判断出当前所述第一初始模型的输出结果准确率不满足第一预设要求,则对当前所述第一初始模型进行调参,并针对调参后的所述第一初始模型,返回执行所述分别将各个所述文本样本输入第一初始模型中;若判断出当前所述第一初始模型的输出结果准确率满足第一预设要求,则将当前所述第一初始模型确定为训练好后的第一神经网络模型。5.根据权利要求4所述的方法,其特征在于,所述第二神经网络模型的训练方法,包括:获取各个所述文本样本及其对应的实体标注;分别将各个所述...

【专利技术属性】
技术研发人员:丁锐
申请(专利权)人:中国银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1