当前位置: 首页 > 专利查询>华侨大学专利>正文

一种基于强化学习算法的实体关系联合抽取模型构建方法技术

技术编号:23363282 阅读:64 留言:0更新日期:2020-02-18 17:22
本发明专利技术公开了一种基于强化学习算法的实体关系联合抽取模型构建方法,包括:输入文本,采用联合抽取标注策略对原始语料中的每条语句的词语进行实体关系标注;将文本转化为word2vec向量;预训练LSTM联合抽取器;初始化训练器网络并打乱袋子顺序;计算当前语句奖励值;计算总期望奖励值;利用优化函数更新模型参数;如果模型已收敛,对模型进行超参数的调优训练;如果超参数为最优解,生成最终的实体关系联合抽取方案。本发明专利技术基于策略梯度优化算法构建强化学习模型,能对复杂的自然语言类型原始语料的语句实体关系联合抽取问题进行有效求解,并能有效提高实体关系抽取的准确率和F1值。

A model construction method of entity relationship joint extraction based on reinforcement learning algorithm

【技术实现步骤摘要】
一种基于强化学习算法的实体关系联合抽取模型构建方法
本专利技术涉及知识图谱构建
,特别涉及一种基于强化学习算法的实体关系联合抽取模型构建方法。
技术介绍
实体和关系的抽取是自然语言处理中知识抽取的关键部分和主要环节。传统的流水线方法首先抽取实体,然后识别实体对之间的关系。这种分离的方式使得两个任务易于处理,也比较灵活。但事实上,常见的实体抽取和关系抽取这两项任务有着密切的关系。流水线方法通常会导致一些错误的抽取,因为实体抽取中获取的实体信息可以进一步帮助关系抽取,实体抽取模块的质量和精度也将影响关系抽取模块。如果抽取的实体对没有关系则会带来不必要的信息,增加了关系抽取的错误率,且受噪声标签问题的影响较大。在此背景下,联合抽取方法成为一种有效的求解手段。然而,大多数现有的联合抽取方法是基于特征的结构化系统,这通常需要复杂的特征工程,并且在某种程度上依赖于其他NLP工具包,这种做法会导致错误传播。但是综合来看,现有的联合抽取方法相较于流水线方法能更好的抽取实体和关系。基于此,本专利提出了一种使用策略梯度强化学习算法构建实体关系联合抽取模型,并且根据现有的策略梯度强化学习算法,网络输出的动作可以是一个连续的值,而且该算法可以在一个连续分布上选取动作,这样可以避免传统流水线方法和以往联合抽取方法不能紧密使用实体和关系之间的信息,以及产生多余的其他信息。
技术实现思路
本专利技术的目的在于提供一种基于强化学习算法的实体关系联合抽取模型的构建方法,利用基于强化学习算法的实体关系联合抽取模型能够同时抽取实体及其关系,以充分利用实体和关系的联系信息,提高文本语句的实体关系抽取的准确率,更好地预测复杂文本的实体及其关系,并能有效提高关系抽取的正确率。为了实现上述目的,本专利技术的技术方案是:一种基于强化学习算法的实体关系联合抽取模型构建方法,采用强化学习算法对输入的自然语言类型原始语料进行实体和关系的抽取,包括以下步骤:S1:将原始语料中每条语句的词语采取联合抽取标注策略进行标注;标注策略具体表示为:其中该词在实体中的位置信息标注为{B(实体开始)、I(实体内部)、E(实体结束)、S(单个实体)};关系类型被表示为实体{1,2}的信息,其中{1,2}分别表示为{实体1,实体2};标签“O”表示除了实体以外的“其他”标签;S2:对已标注的语料采用word2vec技术得到语句中词语的词向量为ht,将此词向量ht作为联合抽取器LSTM网络输入层中的输入值;同时,针对所有语料语句集合S={s1,s2,…,sn},将其具有相同实体对的语句划分至同一个袋子BK(K∈[1,2,…,N]),从而将原始语料语句集合S形成不同的袋子集合B={B1,B2,…,BN};N表示袋子的个数;S3:建立预训练模型-LSTM联合抽取器,再通过模型对袋子进行预训练;使用随机权重初始化联合抽取器LSTM模型的参数,再通过LSTM模型来预训练由联合抽取标注策略得到的语句实体及其关系;词向量ht作为当前时刻的输入值通过LSTM单元结构中的输入门得到的中间值为it=δ(Wwiht+Whiht-1+Wcict-1+bi),其中Wwi,Whi,Wci和bi分别为该函数中的权重系数和偏置量,ht-1是上一时刻的输出向量,ct-1是上一时刻状态向量,δ为sigmoid函数,通过遗忘门得到的中间值为ft=δ(Wwfht+Whfht-1+Wcfct-1+bf),其中Wwf,Whf,Wcf和bf分别为该函数中的权重系数和偏置量,通过输出门得到的中间值为ot=δ(Wwoht+Whoht-1+Wcoct+bo),其中Wwo,Who,Wco和bo分别为该函数中的权重系数和偏置量,zt=tanh(Wwcht+Whcht-1+bc)表示输入的信息,其中Wwc,Whc和bc分别为该函数中的权重系数和偏置量,tanh为双曲正切函数,从而得到当前网络所表示的信息ct=ftct-1+itzt,ct经过ht=ottanh(ct)计算得到的ht表示当前时刻输出的信息,对ht经过权重偏置的设置得到Tt=Wtsht+bts,其中Wts和bts分别为该函数中的权重系数和偏置量,再由softmax层yt=WyTt+by计算得到置信向量yt,其中Wy和by分别为该函数中的权重系数和偏置量,yt最终经过归一化处理得到预测值其中由联合抽取器预训练得到的参数记为ψ,为当前词语的预测值,为每一个词语的预测值,指对所有词语预测值求和,Nt为标签总数,exp为以自然常数e为底的指数函数,其中ai为网络预测的动作,sj为通过由word2vec模型得到的词向量作为输入经过联合抽取标注器得到的预测值分布表达,为输出值为在(0,1)之间当前预测词语的概率值;S4:将经过LSTM联合抽取器预训练得到的结果yt作为强化学习模块中的动作值,并通过基于策略梯度的强化学习算法计算得到每一条语句即状态的奖励值R(si|B);S41:初始化强化学习模块中的目标网络-训练器,使得θ′=θ=ψ,对于每一个回合训练,打乱袋子的顺序,避免模型记忆不能达到很好的泛化效果,其中袋子集合记为B={B1,B2,…,BN};S42:对于每一个袋子BK∈B,假设BK中每条语句的实体和关系的参数为θ,将语句作为本强化学习模型的状态值,计算当前袋子下语句即状态的奖励值R(si|B),其中奖赏函数定义为R(si|B)=γn-irj,其中γ为折扣系数,rj为每回合训练下每个袋子中每条语句的即时奖励值,n表示为当前袋子下的n条语句;S5:对于一个包含n条语句的袋子BK∈B,本模型通过强化学习算法期望得到的总奖励会最大化;因此对于当前袋子下语句的奖励函数R(si|B),目标函数定义为对该袋子下的n条语句s1,s2,…,sn求总期望值其中,表示获取n条语句s1,s2,…,sn的数学期望;S6:由策略梯度算法S5中的目标函数,并根据模型设置的优化函数其中为当前时刻模型预测值的梯度值,再对当前袋子下每条语句的梯度值和奖赏函数先求积再求和,以此更新模型的参数θ,返回S42,直至回合训练数结束;S7:对已经过预训练并构建好强化学习模块的模型进行超参数的调优训练,设置参数值返回S4;根据调优参数得到的最优模型,生成最终的实体关系联合抽取方案。优选的,在S3步骤中:由最终的softmax输出层计算出置信向量值yt=WyTt+by,其中Wy和by分别为该函数中的权重系数和偏置量,并经过归一化处理得到预测值,其中由联合抽取器预训练得到的参数记为ψ,为当前词语的预测值,为每一个词语的预测值,指对所有词语预测值求和,Nt为标签总数,exp为以自然常数e为底的指数函数,其中ai为网络预测的动作,sj为通过由word2vec模型得到的词向量作为输入经过联合抽取标注器得到的预测值分布表达,为输出值为在(0,1)之间当前预测词语的概率值;根据使用的标签策略,标签总数为Nt=2*4*|R|+1,其中|R|是预定义关系集的大小;采用Hinton提出的RMSprop对神经网络进行预训练,定义联合抽取器的目标函数为其中ψ为模型训练本文档来自技高网...

【技术保护点】
1.一种基于强化学习算法的实体关系联合抽取模型构建方法,其特征在于,采用强化学习算法对输入的自然语言类型原始语料进行实体和关系的抽取,包括以下步骤:/nS1:将原始语料中每条语句的词语采取联合抽取标注策略进行标注;标注策略具体表示为:其中该词在实体中的位置信息标注为{B(实体开始)、I(实体内部)、E(实体结束)、S(单个实体)};关系类型被表示为实体{1,2}的信息,其中{1,2}分别表示为{实体1,实体2};标签“O”表示除了实体以外的“其他”标签;/nS2:对已标注的语料采用word2vec技术得到语句中词语的词向量为h

【技术特征摘要】
1.一种基于强化学习算法的实体关系联合抽取模型构建方法,其特征在于,采用强化学习算法对输入的自然语言类型原始语料进行实体和关系的抽取,包括以下步骤:
S1:将原始语料中每条语句的词语采取联合抽取标注策略进行标注;标注策略具体表示为:其中该词在实体中的位置信息标注为{B(实体开始)、I(实体内部)、E(实体结束)、S(单个实体)};关系类型被表示为实体{1,2}的信息,其中{1,2}分别表示为{实体1,实体2};标签“O”表示除了实体以外的“其他”标签;
S2:对已标注的语料采用word2vec技术得到语句中词语的词向量为ht,将此词向量ht作为联合抽取器LSTM网络输入层中的输入值;同时,针对所有语料语句集合S={s1,s2,...,sn},将其具有相同实体对的语句划分至同一个袋子BK(K∈[1,2,...,N]),从而将原始语料语句集合s形成不同的袋子集合B={B1,B2,...,BN};N表示袋子的个数;
S3:建立预训练模型-LSTM联合抽取器,再通过模型对袋子进行预训练;使用随机权重初始化联合抽取器LSTM模型的参数,再通过LSTM模型来预训练由联合抽取标注策略得到的语句实体及其关系;词向量ht作为当前时刻的输入值通过LSTM单元结构中的输入门得到的中间值为it=δ(Wwiht+Whiht-1+Wcict-1+bi),其中Wwi,Whi,Wci和bi分别为该函数中的权重系数和偏置量,ht-1是上一时刻的输出向量,ct-1是上一时刻状态向量,δ为sigmoid函数,通过遗忘门得到的中间值为ft=δ(Wwfht+Whfht-1+Wcfct-1+bf),其中Wwf,Whf,Wcf和bf分别为该函数中的权重系数和偏置量,通过输出门得到的中间值为ot=δ(Wwoht+Whoht-1+Wcoct+bo),其中Wwo,Who,Wco和bo分别为该函数中的权重系数和偏置量,zt=tanh(Wwcht+Whcht-1+bc)表示输入的信息,其中Wwc,Whc和bc分别为该函数中的权重系数和偏置量,tanh为双曲正切函数,从而得到当前网络所表示的信息ct=ftct-1+itzt,ct经过ht=ottanh(ct)计算得到的ht表示当前时刻输出的信息,对ht经过权重偏置的设置得到Tt=Wtsht+bts,其中Wts和bts分别为该函数中的权重系数和偏置量,再由softmax层yt=WyTt+by计算得到置信向量yt,其中Wy和by分别为该函数中的权重系数和偏置量,yt最终经过归一化处理得到预测值其中由联合抽取器预训练得到的参数记为ψ,为当前词语的预测值,为每一个词语的预测值,指对所有词语预测值求和,Nt为标签总数,exp为以自然常数e为底的指数函数,其中ai为网络预测的动作,sj为通过由word2vec模型得到的词向量作为输入经过联合抽取标注器得到的预测值分布表达,为输出值为在(0,1)之间当前预测词语的概率值;
S4:将经过LSTM联合抽取器预训练得到的结果yt作为强化学习模块中的动作值,并通过基于策略梯度的强化学习算法计算得到每一条语句即状态的奖励值R(s...

【专利技术属性】
技术研发人员:何霆孙偲王华珍王成李海波吴雅婷许晓泓廖永新
申请(专利权)人:华侨大学
类型:发明
国别省市:福建;35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1