基于多智能体增强学习的事件语料库提纯方法技术

技术编号:30023234 阅读:30 留言:0更新日期:2021-09-11 06:48
本发明专利技术涉及一种基于多智能体增强学习的事件语料库提纯方法,包括模型训练开始前需要对环境及智能体进行初始化重置,并设置相应的训练参数;智能体通过在环境中执行相应提纯优化动作,形成一系列训练所需的数据,对数据进行采样并存储至数据缓存区,以备后续训练使用;当数据缓存区中数据数量达到设定值,开始使用这些数据对所有智能体的现实网络进行训练和更新;当现实网络更新完毕后,通过不定时参数复制的方法更新所有智能体的目标网络;重复以上步骤,直到训练次数达到预设训练次数为止。本发明专利技术基于对于已标注数据进行提纯优化,从而解决了序列标注联合抽取模型在训练过程中遇到的数据标签噪声问题,从而提升了事件实体关系联合抽取任务的效果。体关系联合抽取任务的效果。体关系联合抽取任务的效果。

【技术实现步骤摘要】
基于多智能体增强学习的事件语料库提纯方法


[0001]本专利技术涉及多智能体强化学习方法领域,尤其涉及基于多智能体增强学习的事件语料库提纯方法。

技术介绍

[0002]强化学习(MARL)是机器学习的一种方法,根据智能体的个数不同可以分为单智能体强化学习和多智能体强化学习,其中多智能体强化学习具有更加广泛的应用场景,是解决许多现实世界问题的关键工具。在多智能体强化学习中,根据智能体任务关系的不同,可分为:完全合作任务、完全竞争任务以及混合任务,在这里我们仅考虑完全合作任务。
[0003]在完全合作任务下的多智能体强化学习训练中,智能体以最大化联合奖励为目标,根据自身策略选择动作,并在环境中执行获得相应奖励和反馈,用以更新自身策略,循环执行以上步骤直至联合奖励值收敛至最大值,各个智能体达到当前环境下最优策略。
[0004]目前,MADDPG(Multi

Agent Deep Deterministic Policy Gradient)算法是多智能体环境中较为前沿的强化学习方法之一,它解决了传统基于值的算法(如:本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于多智能体增强学习的事件语料库提纯方法,其特征在于:包括模型训练开始前需要对环境及智能体进行初始化重置,并设置相应的训练参数;智能体通过在环境中执行相应提纯优化动作,形成一系列训练所需的数据,对数据进行采样并存储至数据缓存区,以备后续训练使用;当数据缓存区中数据数量达到设定值,开始使用这些数据对所有智能体的现实网络进行训练和更新;当现实网络更新完毕后,通过不定时参数复制的方法更新所有智能体的目标网络;重复以上步骤,直到训练次数达到预设训练次数为止。2.根据权利要求1所述的基于多智能体增强学习的事件语料库提纯方法,其特征在于,所述模型训练开始前需要对环境及智能体进行初始化重置,并设置相应的训练参数具体包括:对事件语料库进行数据预处理,将语料库作为多智能体强化学习模型的环境参数输入。3.根据权利要求1所述的基于多智能体增强学习的事件语料库提纯方法,其特征在于,所述智能体通过在环境中执行相应提纯优化动作,形成一系列训练所需的数据,对数据进行采样并存储至数据缓存区,以备后续训练使用具体包括:多智能体强...

【专利技术属性】
技术研发人员:后敬甲王悦白璐崔丽欣
申请(专利权)人:中央财经大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1