一种基于强化学习的关系抽取方法技术

技术编号:32268334 阅读:9 留言:0更新日期:2022-02-12 19:31
本发明专利技术公开了一种基于强化学习的关系抽取方法,基于强化学习的关系抽取模型包括基于强化学习的实例选择器和基于PCNN模型的关系分类器;基于强化学习的实例选择器通过强化学习过程得到选择结果,所述选择结果为相同实体对句子组成的包中最能表达包标签的句子;将选择结果输入到所述关系分类器,根据输入的句子识别出表达相同关系的语句,对所述实例选择器进行反馈,根据反馈更新策略函数选择句子,再用选择的句子训练出更好的关系分类器,优化实例的选择和关系分类过程;最终选择出最能代表关系标签的句子作为所述基于强化学习的关系抽取模型的训练数据,本发明专利技术减少远程监督语料库的噪声和粗粒度问题对关系抽取的影响,提高了关系抽取的性能。了关系抽取的性能。了关系抽取的性能。

【技术实现步骤摘要】
一种基于强化学习的关系抽取方法


[0001]本专利技术涉及自然语言处理
,具体涉及一种基于强化学习的关系抽取方法。

技术介绍

[0002]信息抽取是自然语言处理中的一项基本任务,通过对非结构化文本进行处理抽取结构化信息,作为后续自然语言处理任务的输入。关系抽取是信息抽取技术中的重要内容,对句子中两个实体之间的语义关系进行分类,自动识别出一对概念和联系这对概念的语义关系,构成三元组,可以用来进行知识图谱的构建。传统的关系抽取研究方法主要分为有监督、半监督、弱监督、无监督四类,有监督的关系抽取算法是目前研究的主流方向。
[0003]关系抽取的研究对象主要包括以下几类,1)从互联网上获取的结构化数据;2)从互联网各种网页上爬取的半结构化数据;3)广泛存在的非结构化文本数据。有监督关系抽取算法已经取得了较好的性能,但是此方法严重依赖于词性标注等NLP标注工具,这些工具的误差会传递到关系抽取任务中,并且标注大量的语料须要耗费大量的人力,而在实际应用中的数据规模往往较大。
[0004]基于远程监督的关系抽取算法解决了需要大量标注数据的问题,可以利用现有知识库标注文本数据,并且可以迁移现有的有监督的方法,但是远程监督的启发式匹配会产生大量噪声数据和误差传播等问题。

技术实现思路

[0005]本专利技术的目的在于针对上述现有技术中远程监督关系抽取模型的噪声数据和粗粒度监督信号问题,提出一种基于强化学习的关系抽取方法,提高关系抽取的性能。
[0006]实现本专利技术目的的技术解决方案如下:一种基于强化学习的关系抽取方法,包括以下步骤:
[0007]步骤S1:构建基于强化学习的关系抽取模型框架,所述关系抽取模型框架包括基于强化学习的实例选择器和基于PCNN模型的关系分类器;
[0008]步骤S2:所述基于强化学习的实例选择器通过强化学习过程得到选择结果,所述选择结果为相同实体对句子组成的包中最能表达包标签的句子;
[0009]步骤S3:将所述选择结果输入到所述基于PCNN模型的关系分类器,根据输入的句子识别出表达相同关系的语句,对所述基于强化学习的实例选择器进行反馈;
[0010]步骤S4:所述基于强化学习的实例选择器根据反馈更新策略函数选择句子,用选择的句子训练基于PCNN模型的关系分类器,优化实例的选择和关系分类过程;
[0011]步骤S5:最终选择出最能代表关系标签的句子作为所述基于强化学习的关系抽取模型的训练数据,减少远程监督语料库的噪声和粗粒度问题对关系抽取的影响。
[0012]本专利技术与现有技术相比,其显著优点为:(1)由基于强化学习的实例选择器和基于PCNN模型的关系分类器构成关系抽取模型,通过对关系分类器和实例选择器联合训练,优
化实例的选择和关系分类过程;(2)通过强化学习的方法促进实例选择器选择出最能表达关系的句子,即在包含相同实体对的句子构成的包中选取最能表达包关系标签的语句,减少了远程监督关系抽取模型中噪声数据和粗粒度监督信号问题对关系抽取模型性能的影响,提高了关系抽取的性能。
附图说明
[0013]图1为本专利技术的基于强化学习的关系抽取方法的主要流程示意图。
[0014]图2为本专利技术的基于强化学习的关系抽取方法的模型结构。
[0015]图3为本专利技术的基于强化学习的实例选择器的框架图。
具体实施方式
[0016]本专利技术基于强化学习的关系抽取方法,包括以下步骤:
[0017]步骤S1:构建基于强化学习的关系抽取模型框架,所述关系抽取模型框架包括基于强化学习的实例选择器和基于PCNN模型的关系分类器;
[0018]步骤S2:所述基于强化学习的实例选择器通过强化学习过程得到选择结果,所述选择结果为相同实体对句子组成的包中最能表达包标签的句子;
[0019]步骤S3:将所述选择结果输入到所述基于PCNN模型的关系分类器,根据输入的句子识别出表达相同关系的语句,对所述基于强化学习的实例选择器进行反馈;
[0020]步骤S4:所述基于强化学习的实例选择器根据反馈更新策略函数选择句子,用选择的句子训练基于PCNN模型的关系分类器,优化实例的选择和关系分类过程;
[0021]步骤S5:最终选择出最能代表关系标签的句子作为所述基于强化学习的关系抽取模型的训练数据,减少远程监督语料库的噪声和粗粒度问题对关系抽取的影响。
[0022]进一步地,所述步骤S1中,基于强化学习的实例选择器还包括状态、行为、回报;
[0023]所述状态是用于表达出句子语义,为智能体Agent提供出选择句子的证据;
[0024]所述行为是指Agent在不同环境时采取的动作;
[0025]所述回报是用于帮助Agent选出正确的行为。
[0026]进一步地,所述步骤S1中,基于PCNN模型的关系分类器使用S={w1,w2,w3,...,w
n
}来表示句子,其中的n代表单词的数量,即句子的长度;wi代表句子中的第i个单词,单词编码包括词向量和位置向量;首先对句子编码进行卷积操作,再对每个滤波器进行分段池化操作,使用VS来表示句子的编码,给定一个句子编码S,定义使用Softmax的分类器:其中|r|是关系总数,k是关系计数编号,分别表示关系ri、rk的置信度,且o=W
r
(S
o
D)+b
r
,W
r
是转化向量,代表对应特征预测特定关系的权重,S
o
为给定句子编码,D是代表正则化的dropout层,b
r
是偏执向量,p(r
i
|S,θ)表示语句S在θ作为参数时对于关系ri的置信度,k为句子计数编号。
[0027]进一步地,所述状态、行为的表示方法如下:
[0028]所述状态的表示公式为S=[e1;e2;S
pre
;p(r|S
pre
;θ);S
cur
p(r|S
cur
;θ)],其中符号[;]代表串联操作,e1,e2表示目标实体对,S
pre
表示先前语句向量,S
cur
表示当前语句向量,p(r|S
pre
;θ)表示语句S在θ作为参数时对所有关系的置信度,r为语句关系,θ为权值参数;
[0029]所述行为A={U,P},U表示Agent控制的行为,U∈{0,1},0代表保持之前的关系标签,1代表使用当前句子的标签;P∈{0,1}是指是否提前停止搜索行为,0代表继续搜索,1代表提前停止搜索,由于构造了强化模型的第二个行为P,会在相应的情况下提前停止搜索,在语句包规模较大时可以提高所述基于强化学习的实例选择器的性能,出现停止操作的行为有两种情况:
[0030]第一种是所有的句子都已经处理;
[0031]第二种是Agent有足够的信息证明已经得到了最能表达选定关系的语句;
[0032]Ag本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于强化学习的关系抽取方法,其特征在于,包括以下步骤:步骤S1:构建基于强化学习的关系抽取模型框架,所述关系抽取模型框架包括基于强化学习的实例选择器和基于PCNN模型的关系分类器;步骤S2:所述基于强化学习的实例选择器通过强化学习过程得到选择结果,所述选择结果为相同实体对句子组成的包中最能表达包标签的句子;步骤S3:将所述选择结果输入到所述基于PCNN模型的关系分类器,根据输入的句子识别出表达相同关系的语句,对所述基于强化学习的实例选择器进行反馈;步骤S4:所述基于强化学习的实例选择器根据反馈更新策略函数选择句子,用选择的句子训练基于PCNN模型的关系分类器,优化实例的选择和关系分类过程;步骤S5:最终选择出最能代表关系标签的句子作为所述基于强化学习的关系抽取模型的训练数据,减少远程监督语料库的噪声和粗粒度问题对关系抽取的影响。2.根据权利要求1所述的基于强化学习的关系抽取方法,其特征在于,所述步骤S1中,基于强化学习的实例选择器还包括状态、行为、回报;所述状态是用于表达出句子语义,为智能体Agent提供出选择句子的证据;所述行为是指Agent在不同环境时采取的动作;所述回报是用于帮助Agent选出正确的行为。3.根据权利要求1所述的基于强化学习的关系抽取方法,其特征在于,所述步骤S1中,基于PCNN模型的关系分类器使用S={w1,w2,w3,...,w
n
}来表示句子,其中的n代表单词的数量,即句子的长度;w
i
代表句子中的第i个单词,单词编码包括词向量和位置向量;首先对句子编码进行卷积操作,再对每个滤波器进行分段池化操作,使用V
S
来表示句子的编码,给定一个句子编码S,定义使用Softmax的分类器:一个句子编码S,定义使用Softmax的分类器:其中|r|是关系总数,k是关系计数编号,分别表示关系r
i
、r
k
的置信度,且o=W
r
(S
o
D)+b
r
,W
r
是转化向量,代表对应特征预测特定关系的权重,S
o
为给定句子编码,D是代表正则化的dropout层,b
r
是偏执向量,p(r
i
|S,θ)表示语句S在θ作为参数时对于关系r
i
的置信度,k为句子计数编号。4.根据权利要求2所述的基于强化学习的关系抽取方法,其特征在于,所述状态、行为的表示方法如下:所述状态的表示公式为S=[e1;e2;S
pre
;p(r|S
pre
;θ);S
curp
(r|S
cur
;θ)],其中符号[;]代表串联操作,e1,e2表示目标实体对,S
pre
表示先前语句向量,S
cur
表示当前语句向量,p(r|S
pre
;θ)...

【专利技术属性】
技术研发人员:章莉莉刘森淼王永利胡镑
申请(专利权)人:南京理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1