当前位置: 首页 > 专利查询>四川大学专利>正文

一种融合实体类型的关系三元组抽取方法技术

技术编号:33348129 阅读:25 留言:0更新日期:2022-05-08 09:47
本发明专利技术公开了一种融合实体类型的关系三元组抽取方法,包括以下步骤:收集文本数据作为训练样本;对收集的训练样本数据进行清洗获得数据集;切分数据集并将其按照一定比例划分为训练集、验证集与测试集;搭建基于BERT预训练模型的深度学习网络并加载预训练参数获得训练样本深度表达;在模型后搭建Fast Gradient Method对抗网络提升模型的鲁棒和泛化性能;搭建多头注意力机制与深度神经网络的关系三元组提取模型;进行模型的训练与测试,对验证集采用K折交叉验证的方法保存K折模型,综合K折模型对测试集进行测试,将平均概率作为模型的测试结果;输出模型AttnFGM

【技术实现步骤摘要】
一种融合实体类型的关系三元组抽取方法


[0001]本专利技术涉及自然语言处理
,特别涉及一种融合实体类型的关系三元组智能抽取方法。

技术介绍

[0002]关系抽取通常以三元组的形式组织和呈现,这些结构化的知识为诸多下游任务赋能,例如:信息抽取、知识图谱、搜索引擎、问答任务,具体而言,关系抽取的任务包括在文本中识别头实体和尾实体并为实体间的关系进行分类。目前关系三元组抽取通常使用神经网络的方法,并且受预训练语言模型技术快速发展的启发,关系抽取使用预训练模型利用大规模无标记数据进行无监督学习来得到文本的深度表达,此类方法较依赖于头实体的深度表示,头实体的深度表达影响到下游任务中尾实体和关系类型的抽取效果,但此类方法对头实体的特征表达能力有限,未考虑到头实体的类型信息对尾实体和关系抽取的提升效果,同时此类模型也存在鲁棒性能低、泛化能力弱等问题。

技术实现思路

[0003]本专利技术要解决的技术问题在于提供一种融合实体类型的关系三元祖抽取方法,该抽取方法使用多头注意力机制融合头实体类型特征,通过深度神经网络(DNN)来获得关系三元本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种融合实体类型的关系三元组抽取方法,其特征在于:具体包括以下步骤:1)收集文本数据作为训练样本;2)对步骤1)中收集的训练样本数据进行清洗,形成数据集;3)切分步骤2)形成的数据集,将数据集按照7:2:1的比例划分为训练集、验证集和测试集;4)搭建基于BERT预训练模型的深度学习网络,并加载预训练参数获得训练集数据的深度表达;5)在BERT预训练模型后搭建FastGradientMethod对抗神经网络模型,用于提升模型的鲁棒性能和泛化性能;6)利用头实体提取模块DNN进行头实体的预测;7)将步骤6)预测的头实体中提取头实体特征,并利用多头注意力机制及深度神经网络的关系三元组提取模型;8)利用关系、尾实体提取模块DNN进行关系、尾实体的预测;9)进行模型训练,对步骤3)中的验证集采用K折交叉验证的方法保存K折模型,并利用K折模型对测试集进行测试,将平均概率作为模型的测试结果;输出模型AttnFGM

MARE。2.如权利要求1所述的一种融合实体类型的关系三元组抽取方法,其特征在于:所述步骤4)中的BERT预训练模型依次设置有位置嵌入层、句法嵌入层和token嵌入层,后连接接有E
[cls]
层、全连接层和T
[cls]
层,且深度表达式如下所示:H=BERT(S)(1)其中,S为训练集文本数据,H为经过BERT预训练模型后S的隐状态的深度表达。3.如权利要求1所述的一种融合实体类型的关系三元组抽取方法,其特征在于:所述步骤5)中搭建的FastGradientMethod对抗神经网络模型的表达式如下所示:r
adv
=∈
·
g/||g||2(3)x
adv
=x+r
adv
(4)其中,g代表经过梯度更新后的损失函数,θ代表对抗神经网络的参数,x代表模型的输入,y代表与输入x对应的标签,L代表训练神经网络的损失函数,代表神经网络的梯度表示,∈代表对抗网络的超参数,x
adv
代表添加对抗扰动后的模型输入,r
adv
代表添加对抗扰动的程度。4...

【专利技术属性】
技术研发人员:彭德中陈付旻吕建成彭玺桑永胜胡鹏孙亚楠王旭陈杰王骞
申请(专利权)人:四川大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1