基于强化学习的级联信息提取系统及方法技术方案

技术编号:27657235 阅读:12 留言:0更新日期:2021-03-12 14:20
本发明专利技术提供了一种基于强化学习的级联信息提取系统及方法,其中,预训练模块用于独立训练定位模块和分类模块,得到的预训练参数直接传递至强化训练模块中对应的定位模块和分类模块中;强化训练模块用于对定位模块和分类模块进行联合训练,并通过强化学习框架进一步优化定位模块和分类模块,得到的强化训练参数直接复用于预测模块中对应的定位模块和分类模块;预测模块用于对待检测文本进行信息提取,以待检测文本为输入,依次通过定位模块和分类模块,输出待检测文本的实体、关系和事件信息。本发明专利技术采用强化学习的方法有效解决级联模型存在不可导过程的问题,避免单独训练的模型在连接过程中产生的累积误差,从而保证信息提取的有效性和准确性。

【技术实现步骤摘要】
基于强化学习的级联信息提取系统及方法
本专利技术涉及自然语言处理
中的一种信息提取技术,具体地,涉及一种基于强化学习的级联信息提取系统及方法。
技术介绍
信息提取是自然语言处理中的一类基础任务,主要包含如命名实体识别、关系抽取以及事件抽取等多个子任务。这些任务为后续复杂任务、如阅读理解、问答系统、文本生成等提供重要的支持。通常,实体识别、关系抽取和事件抽取具有不同的定义方式,命名实体识别往往可以定义为序列标注任务,而事件抽取则是在特定语境下的分类任务,事件抽取比较复杂,可以看作两个序列标注任务的级联。此外,如果待提取的信息还存在嵌套形式,任务将变的更加复杂。想要统一提取不同类型的信息,目前常用的方法是通过多任务学习实现,然而,即使在多任务模型中,不同信息提取任务往往也需要通过定义不同的模块实现。这些模块同样采用已有的深度学习或者强化学习模型,如强化学习框架下的lattice-LSTM命名实体识别模型,基于强化学习的关系抽取模型等,通过共享一些信息实现多任务的联合训练,并未实质解决不同类型信息的统一提取。综上所述,迄今没有一个统一的学习框架可以一次性高效率的提取实体、关系以及事件等不同类型的信息。
技术实现思路
本专利技术针对现有技术中存在的上述不足,提供了一种基于强化学习的级联信息提取系统及方法。本专利技术是通过以下技术方案实现的。根据本专利技术的一个方面,提供了一种基于强化学习的级联信息提取系统,包括:预训练模块、强化训练模块和预测模块,每一个模块中均包括定位模块和分类模块;其中:所述预训练模块用于独立训练定位模块和分类模块,得到的预训练参数直接传递至强化训练模块中对应的定位模块和分类模块中;所述强化训练模块用于对定位模块和分类模块进行联合训练,并通过强化学习框架进一步优化定位模块和分类模块,得到的强化训练参数直接复用于预测模块中对应的定位模块和分类模块;所述预测模块用于对待检测文本进行信息提取,以待检测文本为输入,依次通过定位模块和分类模块,输出待检测文本的实体、关系和事件信息。优选地,所述强化学习模块还包括:行为模块和评价模块和优化模块;其中:所述定位模块和分类模块的初始化参数直接从预训练模块中继承;所述行为模块以定位模块选择的模型作为策略,根据定位模块和分类模块输出的概率分布进行采样,得到下一步预测的行为,并通过定义环境和奖励函数对预测的行为进行打分,得到对应的分值作为奖励;所述评价模块以定位模块和分类模块的输出作为输入,通过另外一个神经网络计算奖励的期望作为奖励的阈值;所述优化模块通过行为模块输出的奖励和评价模块输出的阈值优化定位模块和分类模块中的模型参数。优选地,所述奖励函数与准确率和召回率指标相关,采用归一化的局部F1值与预期F1差值作为奖励函数;和/或所述优化模块采用交叉熵损失函数作为优化过程中的损失函数。优选地,所述强化学习框架采用异步优势行为评价模型。优选地,每一个模块中的所述定位模块均包括定位模型;每一个模块中的所述分类模块均包括分类模型;其中:所述定位模型以文本为输入,以文本中所包含的信息片段为标签进行优化;所述分类模型以文本中所包含的信息片段为输入,以信息片段的类型为标签进行优化。优选地,每一个所述定位模型均为一个生成模型,包括基于文本的编码器和基于注意力机制的解码器;其中:所述编码器用于捕捉文本特征,逐词学习文本的上下文编码,输出具有上下文信息的文本编码向量;所述解码器以编码器的输出为输入,通过注意力机制逐步对所要提取的信息进行定位,得到位置信息;每一个所述分类模型均为一个判别模型,首先通过定位模型捕捉到的位置信息对文本编码向量进行掩膜,得到局部信息片段向量,然后通过卷积神经网络提取模型所用的特征并通过全连接分类器进行最终的分类,确定候选片段是否为待提取信息并确定其类型。优选地,所述编码器采用双向循环神经网络或者带有位置编码的转移模型;所述解码器采用带有注意力机制的指针网络,定位信息片段,对于每一个时刻,通过上一时刻得到的文本片段位置信息对整个文本做注意力操作,得到当前时刻文本信息位置概率分布,取概率最大的位置作为当前时刻定位到的信息,不断迭代得到所有候选实体的位置信息。优选地,所述预训练模块中的定位模块和分类模块还分别包括一个优化器,所述优化器用于分别学习定位模块和分类模块的参数。优选地,所述优化器采用ADAM优化器。根据本专利技术的另一个方面,提供了一种基于强化学习的级联信息提取方法,包括:通过ADAM优化器分别预训练定位模块和分类模块;采用强化学习的方法交替训练定位模块和分类模块;调用训练好的参数进行嵌套实体识别检测,得到训练后的级联信息提取模型,利用训练后的级联信息提取获得待检测文本的实体、关系和事件信息。根据本专利技术的第三个方面,提供了一种终端,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时可用于执行上述所述的方法。根据本专利技术的第四个方面,提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时可用于执行上述所述的方法。由于采用了上述技术方案,本专利技术与现有技术相比,至少包括如下至少一项的有益效果:1、本专利技术提供的基于强化学习的级联信息提取系统及方法,通过“定位器-分类器”模式统一提取不同类型的信息。2、本专利技术提供的基于强化学习的级联信息提取系统及方法,构建了一种基于强化学习的系统用于实现“定位器-分类器”模式。3、本专利技术提供的基于强化学习的级联信息提取系统及方法,提出了一种强化学习的框架适用于训练“定位器-分类器”这类级联模型。一方面,该框架通过损失函数优化模型可以有效解决两个独立模块(定位模块和分类模块)之间不可导的问题;另一反面,该框架通过迭代方式训练定位器和分类器能够有效抑制累积误差对模型效果的负面影响。附图说明通过阅读参照以下附图对非限制性实施例所作的详细描述,本专利技术的其它特征、目的和优点将会变得更明显:图1为本专利技术一优选实施例中基于强化学习的级联信息提取系统的框架示意图。图2为本专利技术一优选实施例中强化训练模块的框架示意图。图3为本专利技术一优选实施例中预测模块的具体案例工作示意图。具体实施方式下面对本专利技术的实施例作详细说明:本实施例在以本专利技术技术方案为前提下进行实施,给出了详细的实施方式和具体的操作过程。应当指出的是,对本领域的普通技术人员来说,在不脱离本专利技术构思的前提下,还可以做出若干变形和改进,这些都属于本专利技术的保护范围。综合分析信息提取中的几类任务(命名实体识别、关系抽取、事件抽取以及嵌套信息提取),可以归纳出信息提取任务往往只涉及到局部的上下文,在提取的过程中,首先确定信息的位置,在对提取到的信息进行分类即可。因此,信息提取可以统一定义为级联的“定位-分类”任务,即先对相应待提取信息进行定位,再对本文档来自技高网...

【技术保护点】
1.一种基于强化学习的级联信息提取系统,其特征在于,包括:预训练模块、强化训练模块和预测模块,每一个模块中均包括定位模块和分类模块;/n其中:/n所述预训练模块用于独立训练定位模块和分类模块,得到的预训练参数直接传递至强化训练模块中对应的定位模块和分类模块中;/n所述强化训练模块用于对定位模块和分类模块进行联合训练,并通过强化学习框架进一步优化定位模块和分类模块,得到的强化训练参数直接复用于预测模块中对应的定位模块和分类模块;/n所述预测模块用于对待检测文本进行信息提取,以待检测文本为输入,依次通过定位模块和分类模块,输出待检测文本的实体、关系和事件信息。/n

【技术特征摘要】
1.一种基于强化学习的级联信息提取系统,其特征在于,包括:预训练模块、强化训练模块和预测模块,每一个模块中均包括定位模块和分类模块;
其中:
所述预训练模块用于独立训练定位模块和分类模块,得到的预训练参数直接传递至强化训练模块中对应的定位模块和分类模块中;
所述强化训练模块用于对定位模块和分类模块进行联合训练,并通过强化学习框架进一步优化定位模块和分类模块,得到的强化训练参数直接复用于预测模块中对应的定位模块和分类模块;
所述预测模块用于对待检测文本进行信息提取,以待检测文本为输入,依次通过定位模块和分类模块,输出待检测文本的实体、关系和事件信息。


2.根据权利要求1所述的基于强化学习的级联信息提取系统,其特征在于,所述强化学习模块还包括:行为模块和评价模块和优化模块;其中:
所述定位模块和分类模块的初始化参数直接从预训练模块中继承;
所述行为模块以定位模块选择的模型作为策略,根据定位模块和分类模块输出的概率分布进行采样,得到下一步预测的行为,并通过定义环境和奖励函数对预测的行为进行打分,得到对应的分值作为奖励;
所述评价模块以定位模块和分类模块的输出作为输入,通过另外一个神经网络计算奖励的期望作为奖励的阈值;
所述优化模块通过行为模块输出的奖励和评价模块输出的阈值优化定位模块和分类模块中的模型参数。


3.根据权利要求2所述的基于强化学习的级联信息提取系统,其特征在于,所述奖励函数与准确率和召回率指标相关,采用归一化的局部F1值与预期F1差值作为奖励函数;和/或
所述优化模块采用交叉熵损失函数作为优化过程中的损失函数。


4.根据权利要求1所述的基于强化学习的级联信息提取系统,其特征在于,所述强化学习框架采用异步优势行为评价模型。


5.根据权利要求1-4任一项所述的基于强化学习的级联信息提取系统,其特征在于,每一个模块中的所述定位模块均包括定位模型;每一个模块中的所述分类模块均包括分类模型;
其中:
所述定位模型以文本为输入,以文本中所包含的信息片段为标签进行优化;
所述分类模型以文本中所包含的信息片段为输入,以信息片段的类型为标签进行优化。<...

【专利技术属性】
技术研发人员:姜华田济东陈文清肖力强
申请(专利权)人:上海旻浦科技有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1