一种基于强化学习算法的实体关系联合抽取模型构建方法技术

技术编号：23363282 阅读：64 留言：0更新日期：2020-02-18 17:22

本发明专利技术公开了一种基于强化学习算法的实体关系联合抽取模型构建方法，包括：输入文本，采用联合抽取标注策略对原始语料中的每条语句的词语进行实体关系标注；将文本转化为word2vec向量；预训练LSTM联合抽取器；初始化训练器网络并打乱袋子顺序；计算当前语句奖励值；计算总期望奖励值；利用优化函数更新模型参数；如果模型已收敛，对模型进行超参数的调优训练；如果超参数为最优解，生成最终的实体关系联合抽取方案。本发明专利技术基于策略梯度优化算法构建强化学习模型，能对复杂的自然语言类型原始语料的语句实体关系联合抽取问题进行有效求解，并能有效提高实体关系抽取的准确率和F1值。

A model construction method of entity relationship joint extraction based on reinforcement learning algorithm

全部详细技术资料下载

【技术实现步骤摘要】
一种基于强化学习算法的实体关系联合抽取模型构建方法
本专利技术涉及知识图谱构建
，特别涉及一种基于强化学习算法的实体关系联合抽取模型构建方法。
技术介绍
实体和关系的抽取是自然语言处理中知识抽取的关键部分和主要环节。传统的流水线方法首先抽取实体，然后识别实体对之间的关系。这种分离的方式使得两个任务易于处理，也比较灵活。但事实上，常见的实体抽取和关系抽取这两项任务有着密切的关系。流水线方法通常会导致一些错误的抽取，因为实体抽取中获取的实体信息可以进一步帮助关系抽取，实体抽取模块的质量和精度也将影响关系抽取模块。如果抽取的实体对没有关系则会带来不必要的信息，增加了关系抽取的错误率，且受噪声标签问题的影响较大。在此背景下，联合抽取方法成为一种有效的求解手段。然而，大多数现有的联合抽取方法是基于特征的结构化系统，这通常需要复杂的特征工程，并且在某种程度上依赖于其他NLP工具包，这种做法会导致错误传播。但是综合来看，现有的联合抽取方法相较于流水线方法能更好的抽取实体和关系。基于此，本专利提出了一种使用策略梯度强化学习算法构建实体关系联合抽取模型，并且根据现有的策略梯度强化学习算法，网络输出的动作可以是一个连续的值，而且该算法可以在一个连续分布上选取动作，这样可以避免传统流水线方法和以往联合抽取方法不能紧密使用实体和关系之间的信息，以及产生多余的其他信息。
技术实现思路
本专利技术的目的在于提供一种基于强化学习算法的实体关系联合抽取模型的构建方法，利用基于强化学习算法的实体关系联合抽取模型能够同时抽取实...

【技术保护点】
1.一种基于强化学习算法的实体关系联合抽取模型构建方法，其特征在于，采用强化学习算法对输入的自然语言类型原始语料进行实体和关系的抽取，包括以下步骤：/nS1：将原始语料中每条语句的词语采取联合抽取标注策略进行标注；标注策略具体表示为：其中该词在实体中的位置信息标注为{B(实体开始)、I(实体内部)、E(实体结束)、S(单个实体)}；关系类型被表示为实体{1，2}的信息，其中{1，2}分别表示为{实体1，实体2}；标签“O”表示除了实体以外的“其他”标签；/nS2：对已标注的语料采用word2vec技术得到语句中词语的词向量为h

【技术特征摘要】
1.一种基于强化学习算法的实体关系联合抽取模型构建方法，其特征在于，采用强化学习算法对输入的自然语言类型原始语料进行实体和关系的抽取，包括以下步骤：
S1：将原始语料中每条语句的词语采取联合抽取标注策略进行标注；标注策略具体表示为：其中该词在实体中的位置信息标注为{B(实体开始)、I(实体内部)、E(实体结束)、S(单个实体)}；关系类型被表示为实体{1，2}的信息，其中{1，2}分别表示为{实体1，实体2}；标签“O”表示除了实体以外的“其他”标签；
S2：对已标注的语料采用word2vec技术得到语句中词语的词向量为ht，将此词向量ht作为联合抽取器LSTM网络输入层中的输入值；同时，针对所有语料语句集合S＝{s1，s2，...，sn}，将其具有相同实体对的语句划分至同一个袋子BK(K∈[1，2，...，N])，从而将原始语料语句集合s形成不同的袋子集合B＝{B1，B2，...，BN}；N表示袋子的个数；
S3：建立预训练模型-LSTM联合抽取器，再通过模型对袋子进行预训练；使用随机权重初始化联合抽取器LSTM模型的参数，再通过LSTM模型来预训练由联合抽取标注策略得到的语句实体及其关系；词向量ht作为当前时刻的输入值通过LSTM单元结构中的输入门得到的中间值为it＝δ(Wwiht+Whiht-1+Wcict-1+bi)，其中Wwi，Whi，Wci和bi分别为该函数中的权重系数和偏置量，ht-1是上一时刻的输出向量，ct-1是上一时刻状态向量，δ为sigmoid函数，通过遗忘门得到的中间值为ft＝δ(Wwfht+Whfht-1+Wcfct-1+bf)，其中Wwf，Whf，Wcf和bf分别为该函数中的权重系数和偏置量，通过输出门得到的中间值为ot＝δ(Wwoht+Whoht-1+Wcoct+bo)，其中Wwo，Who，Wco和bo分别为该函数中的权重系数和偏置量，zt＝tanh(Wwcht+Whcht-1+bc)表示输入的信息，其中Wwc，Whc和bc分别为该函数中的权重系数和偏置量，tanh为双曲正切函数，从而得到当前网络所表示的信息ct＝ftct-1+itzt，ct经过ht＝ottanh(ct)计算得到的ht表示当前时刻输出的信息，对ht经过权重偏置的设置得到Tt＝Wtsht+bts，其中Wts和bts分别为该函数中的权重系数和偏置量，再由softmax层yt＝WyTt+by计算得到置信向量yt，其中Wy和by分别为该函数中的权重系数和偏置量，yt最终经过归一化处理得到预测值其中由联合抽取器预训练得到的参数记为ψ，为当前词语的预测值，为每一个词语的预测值，指对所有词语预测值求和，Nt为标签总数，exp为以自然常数e为底的指数函数，其中ai为网络预测的动作，sj为通过由word2vec模型得到的词向量作为输入经过联合抽取标注器得到的预测值分布表达，为输出值为在(0，1)之间当前预测词语的概率值；
S4：将经过LSTM联合抽取器预训练得到的结果yt作为强化学习模块中的动作值，并通过基于策略梯度的强化学习算法计算得到每一条语句即状态的奖励值R(s...

【专利技术属性】
技术研发人员：何霆，孙偲，王华珍，王成，李海波，吴雅婷，许晓泓，廖永新，
申请(专利权)人：华侨大学，
类型：发明
国别省市：福建;35

全部详细技术资料下载我是这个专利的主人