基于专家经验的强化学习方法技术

技术编号:36071809 阅读:15 留言:0更新日期:2022-12-24 10:41
本发明专利技术公开了一种基于专家经验的强化学习方法,包含如下步骤:在外部的智能体中创建专家数据缓冲器、优先级数据缓冲器、目标网络、预测网络、策略网络、learner模块与若干个worker模块;对任务环境进行数据采集,获得若干组第一经验数据与若干组第二经验数据;处理若干组第一经验数据与若干组第二经验数据,获得若干组高优先级数据与若干组替换数据;将若干组高优先级数据与若干组替换数据输入至learner模块中,获得若干组训练经验数据;智能体通过获取若干组训练经验数据来对当前策略进行更新。本发明专利技术解决了现有技术中存在的算法收敛困难、训练速度降低、算法鲁棒性差的缺陷,实现了智能体对环境的高效探索,具有单位时隙吞吐率高、学习速度快的特点。学习速度快的特点。学习速度快的特点。

【技术实现步骤摘要】
基于专家经验的强化学习方法


[0001]本专利技术涉及强化学习方法
,特别涉及一种基于专家经验的强化学习方法。

技术介绍

[0002]现有技术中的强化学习算法,大多基于值函数的方法或基于策略梯度的方法。这两类方法都需要智能体与环境进行大量的数据交互,利用海量的实时经验数据对算法模型进行训练,才能得到较好的行动策略,然而,现有技术中的强化学习方法对于采样成本较高的任务难以取得较好的结果,存在算法收敛困难、训练速度降低、算法鲁棒性差的缺陷。

技术实现思路

[0003]根据本专利技术实施例,提供了一种基于专家经验的强化学习方法,包含如下步骤:在外部的智能体中创建专家数据缓冲器、优先级数据缓冲器、目标网络、预测网络、策略网络、learner模块与若干个worker模块;对外部的任务环境进行数据采集,获得若干组第一经验数据与若干组第二经验数据;处理若干组第一经验数据与若干组第二经验数据,获得若干组高优先级数据与若干组替换数据;将若干组高优先级数据与若干组替换数据输入至learner模块中,获得若干组训练经验数据;智能体通过获取若干组训练经验数据来对策略网络的当前策略进行更新。进一步,对外部的任务环境进行数据采集,获得若干组第一经验数据与若干组第二经验数据,包含如下子步骤;通过人工采集的方式对任务环境中的高价值经验数据进行采集,获得若干组第一经验数据;若干个worker模块获取并使用策略网络的当前策略与任务环境进行交互,获得若干组第二经验数据。进一步,worker模块每个时隙采集一组第二经验数据,直至完成一整幕经验数据的收集,获得若干组第二经验数据。进一步,处理若干组第一经验数据与若干组第二经验数据,获得若干组高优先级数据与若干组替换数据,包含如下子步骤:将若干组第一经验数据存储于专家数据缓冲器;将若干组第二经验数据存储于优先级数据缓冲器,并将当前策略同步至learner模块;利用哈希算法处理若干组第一经验数据,获得与若干组第一经验数据一一对应的若干个第一哈希值;
使用目标网络与预测网络对若干组第二经验数据进行内部奖励评估,获得若干个内部奖励值;利用若干个内部激励值与若干组第二经验数据的若干个外部奖励值对若干组第二经验数据的状态价值函数估计,获得若干个内部状态价值函数与若干个外部状态价值函数;根据若干个内部状态价值函数与若干个外部状态价值函数计算获得若干组第二经验数据的总状态价值函数;优先级数据缓冲器对若干组第二经验数据进行筛选,将若干组第二经验数据中总状态价值函数较高、出现次数较少的第二经验数据赋予较高的优先级,获得若干组高优先级数据;利用哈希算法对其余的第二经验数据进行计算,获得若干个第二哈希值;将若干个第二哈希值与若干个第一哈希值进行对比,在其余的第二经验数据中筛选出若干组与第一哈希值近似的第二经验数据,获得若干组替换数据。进一步,总状态价值函数的计算公式如下:其中,参数V的含义为总状态价值函数,参数的含义为内部状态价值函数,参数的含义为外部状态价值函数。进一步,智能体通过获取若干组训练经验数据来对策略网络的当前策略进行更新,包含如下子步骤:使用V

trace方法通过重要性采样的方式,将总状态价值函数改写为可供learner模块学习的近似状态价值函数;智能体使用目标网络与预测网络的预测均方误差作为损失函数优化预测网络的参数;智能体使用总状态价值函数作为损失函数,通过策略梯度的方法更新策略网络的当前策略。根据本专利技术实施例的基于专家经验的强化学习方法,通过引入专家经验数据,并利用哈希算法将每个经验数据映射为一个唯一的哈希值。在训练过程中专家数据可以很好对价值函数较低的经验数据进行引导改进,使得策略网络快速且稳定的收敛,并且相比于传统的强化学习算法,本实施例通过引入内部奖励值,成功引导智能体对环境进行高效探索,避免了由于探索效能不够,而导致价值函数估计不准确,进而收敛到局部最优策略的问题,同时我们应用V

trace方法在内部状态价值函数和外部状态价值函数上,成功解决了行动策略与目标策略不同而造成优化结果出现较大偏差的问题,具有单位时隙吞吐率高、学习速度快的特点,解决了现有技术中存在的算法收敛困难、训练速度降低、算法鲁棒性差的缺陷。要理解的是,前面的一般描述和下面的详细描述两者都是示例性的,并且意图在于提供要求保护的技术的进一步说明。
附图说明
[0004]图1为根据本专利技术实施例基于专家经验的强化学习方法的步骤流程图;图2为图1中步骤S2的子步骤的流程图;图3为图1中步骤S3的子步骤的流程图;图4为图1中步骤S5的子步骤的流程图。
具体实施方式
[0005]以下将结合附图,详细描述本专利技术的优选实施例,对本专利技术做进一步阐述。首先,将结合图1~4描述根据本专利技术实施例的基于专家经验的强化学习方法,用于指引智能体学习有效的行动策略,其应用场景广阔。如图1所示,本专利技术实施例的基于专家经验的强化学习方法,包含如下步骤:在S1中,如图1所示,在外部的智能体中创建专家数据缓冲器、优先级数据缓冲器、目标网络、预测网络、策略网络、learner模块与若干个worker模块。在S2中,如图1所示,对外部的任务环境进行数据采集,获得若干组第一经验数据与若干组第二经验数据。进一步,对外部的任务环境进行数据采集,获得若干组第一经验数据与若干组第二经验数据,包含如下子步骤;在S21中,如图2所示,通过人工采集的方式对任务环境中的高价值经验数据进行采集,获得若干组第一经验数据。在S22中,如图2所示,若干个worker模块获取并使用策略网络的当前策略与任务环境进行交互,获得若干组第二经验数据。进一步,worker模块每个时隙采集一组第二经验数据,直至完成一整幕经验数据的收集,即获得若干组第二经验数据。在S3中,如图1所示,处理若干组第一经验数据与若干组第二经验数据,获得若干组高优先级数据与若干组替换数据。进一步,处理若干组第一经验数据与若干组第二经验数据,获得若干组高优先级数据与若干组替换数据,包含如下子步骤:在S31中,如图3所示,将若干组第一经验数据按照经验数据元组格式储于专家数据缓冲器,其中,st参数的含义为:动作初始观测到的状态,at参数的含义为:依照当前策略μ做出的动作,参数的含义为:智能体在当前环境执行当前动作的总的奖励值,st+1参数的含义为:环境转移到的下一个状态, done参数的含义为:是否触发终止条件导致任务终止。在S32中,如图3所示,将若干组第二经验数据按照五元组数据格式存储于优先级数据缓冲器,并将当前策略同步至learner模块,开始新一轮的交互,其中,st参数的含义为:动作初始观测到的状态,at参数的含义为:依照当前策略μ做出的动作,参数的含义为:得到的外部奖励值,st+1参数的含义为:
环境转移到的下一个状态, done参数的含义为:是否触发终止条件导致任务终止。在S33中,如图3所示,利用哈希算法处理若干组第一经验数据,获得与若干组第一经验数据一一对应的若干个第一哈希值。在S34中,如图3所示,使用目标网络与预测网络对若干组第二经验数据进行内部奖励评估,获得若干本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于专家经验的强化学习方法,其特征在于,包含如下步骤:在外部的智能体中创建专家数据缓冲器、优先级数据缓冲器、目标网络、预测网络、策略网络、learner模块与若干个worker模块;对外部的任务环境进行数据采集,获得若干组第一经验数据与若干组第二经验数据;处理所述若干组第一经验数据与所述若干组第二经验数据,获得若干组高优先级数据与若干组替换数据;将所述若干组高优先级数据与所述若干组替换数据输入至所述learner模块中,获得若干组训练经验数据;所述智能体通过获取所述若干组训练经验数据来对所述策略网络的当前策略进行更新。2.如权利要求1所述基于专家经验的强化学习方法,其特征在于,对外部的任务环境进行数据采集,获得若干组第一经验数据与若干组第二经验数据,包含如下子步骤;通过人工采集的方式对所述任务环境中的高价值经验数据进行采集,获得若干组第一经验数据;所述若干个worker模块获取并使用所述策略网络的当前策略与所述任务环境进行交互,获得若干组第二经验数据。3.如权利要求2所述基于专家经验的强化学习方法,其特征在于,所述worker模块每个时隙采集一组所述第二经验数据,直至完成一整幕经验数据的收集,获得所述若干组第二经验数据。4.如权利要求1所述基于专家经验的强化学习方法,其特征在于,处理所述若干组第一经验数据与所述若干组第二经验数据,获得若干组高优先级数据与若干组替换数据,包含如下子步骤:将所述若干组第一经验数据存储于所述专家数据缓冲器;将所述若干组第二经验数据存储于所述优先级数据缓冲器,并将所述当前策略同步至所述learner模块;利用哈希算法处理所述若干组第一经验数据,获得与所述若干组第一经验数据一一对应的若干个第一哈希值...

【专利技术属性】
技术研发人员:曹江杨思明高原郭洋王平王景王晓楠
申请(专利权)人:中国人民解放军军事科学院战争研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1