基于强化学习的级联信息提取系统及方法技术方案

技术编号：27657235 阅读：12 留言：0更新日期：2021-03-12 14:20

本发明专利技术提供了一种基于强化学习的级联信息提取系统及方法，其中，预训练模块用于独立训练定位模块和分类模块，得到的预训练参数直接传递至强化训练模块中对应的定位模块和分类模块中；强化训练模块用于对定位模块和分类模块进行联合训练，并通过强化学习框架进一步优化定位模块和分类模块，得到的强化训练参数直接复用于预测模块中对应的定位模块和分类模块；预测模块用于对待检测文本进行信息提取，以待检测文本为输入，依次通过定位模块和分类模块，输出待检测文本的实体、关系和事件信息。本发明专利技术采用强化学习的方法有效解决级联模型存在不可导过程的问题，避免单独训练的模型在连接过程中产生的累积误差，从而保证信息提取的有效性和准确性。

全部详细技术资料下载

【技术实现步骤摘要】
基于强化学习的级联信息提取系统及方法
本专利技术涉及自然语言处理
中的一种信息提取技术，具体地，涉及一种基于强化学习的级联信息提取系统及方法。
技术介绍
信息提取是自然语言处理中的一类基础任务，主要包含如命名实体识别、关系抽取以及事件抽取等多个子任务。这些任务为后续复杂任务、如阅读理解、问答系统、文本生成等提供重要的支持。通常，实体识别、关系抽取和事件抽取具有不同的定义方式，命名实体识别往往可以定义为序列标注任务，而事件抽取则是在特定语境下的分类任务，事件抽取比较复杂，可以看作两个序列标注任务的级联。此外，如果待提取的信息还存在嵌套形式，任务将变的更加复杂。想要统一提取不同类型的信息，目前常用的方法是通过多任务学习实现，然而，即使在多任务模型中，不同信息提取任务往往也需要通过定义不同的模块实现。这些模块同样采用已有的深度学习或者强化学习模型，如强化学习框架下的lattice-LSTM命名实体识别模型，基于强化学习的关系抽取模型等，通过共享一些信息实现多任务的联合训练，并未实质解决不同类型信息的统一提取。综上所述，迄今没有一个统一的学习框架可以一次性高效率的提取实体、关系以及事件等不同类型的信息。
技术实现思路
本专利技术针对现有技术中存在的上述不足，提供了一种基于强化学习的级联信息提取系统及方法。本专利技术是通过以下技术方案实现的。根据本专利技术的一个方面，提供了一种基于强化学习的级联信息提取系统，包括：预训练模块、强化训练模块和预测模块，每一个模块中均包括定位模块和...

【技术保护点】
1.一种基于强化学习的级联信息提取系统，其特征在于，包括：预训练模块、强化训练模块和预测模块，每一个模块中均包括定位模块和分类模块；/n其中：/n所述预训练模块用于独立训练定位模块和分类模块，得到的预训练参数直接传递至强化训练模块中对应的定位模块和分类模块中；/n所述强化训练模块用于对定位模块和分类模块进行联合训练，并通过强化学习框架进一步优化定位模块和分类模块，得到的强化训练参数直接复用于预测模块中对应的定位模块和分类模块；/n所述预测模块用于对待检测文本进行信息提取，以待检测文本为输入，依次通过定位模块和分类模块，输出待检测文本的实体、关系和事件信息。/n

【技术特征摘要】
1.一种基于强化学习的级联信息提取系统，其特征在于，包括：预训练模块、强化训练模块和预测模块，每一个模块中均包括定位模块和分类模块；
其中：
所述预训练模块用于独立训练定位模块和分类模块，得到的预训练参数直接传递至强化训练模块中对应的定位模块和分类模块中；
所述强化训练模块用于对定位模块和分类模块进行联合训练，并通过强化学习框架进一步优化定位模块和分类模块，得到的强化训练参数直接复用于预测模块中对应的定位模块和分类模块；
所述预测模块用于对待检测文本进行信息提取，以待检测文本为输入，依次通过定位模块和分类模块，输出待检测文本的实体、关系和事件信息。

2.根据权利要求1所述的基于强化学习的级联信息提取系统，其特征在于，所述强化学习模块还包括：行为模块和评价模块和优化模块；其中：
所述定位模块和分类模块的初始化参数直接从预训练模块中继承；
所述行为模块以定位模块选择的模型作为策略，根据定位模块和分类模块输出的概率分布进行采样，得到下一步预测的行为，并通过定义环境和奖励函数对预测的行为进行打分，得到对应的分值作为奖励；
所述评价模块以定位模块和分类模块的输出作为输入，通过另外一个神经网络计算奖励的期望作为奖励的阈值；
所述优化模块通过行为模块输出的奖励和评价模块输出的阈值优化定位模块和分类模块中的模型参数。

3.根据权利要求2所述的基于强化学习的级联信息提取系统，其特征在于，所述奖励函数与准确率和召回率指标相关，采用归一化的局部F1值与预期F1差值作为奖励函数；和/或
所述优化模块采用交叉熵损失函数作为优化过程中的损失函数。

4.根据权利要求1所述的基于强化学习的级联信息提取系统，其特征在于，所述强化学习框架采用异步优势行为评价模型。

5.根据权利要求1-4任一项所述的基于强化学习的级联信息提取系统，其特征在于，每一个模块中的所述定位模块均包括定位模型；每一个模块中的所述分类模块均包括分类模型；
其中：
所述定位模型以文本为输入，以文本中所包含的信息片段为标签进行优化；
所述分类模型以文本中所包含的信息片段为输入，以信息片段的类型为标签进行优化。<...

【专利技术属性】
技术研发人员：姜华，田济东，陈文清，肖力强，
申请(专利权)人：上海旻浦科技有限公司，
类型：发明
国别省市：上海;31

全部详细技术资料下载我是这个专利的主人