基于专家经验的强化学习方法技术

技术编号：36071809 阅读：31 留言：0更新日期：2022-12-24 10:41

本发明专利技术公开了一种基于专家经验的强化学习方法，包含如下步骤：在外部的智能体中创建专家数据缓冲器、优先级数据缓冲器、目标网络、预测网络、策略网络、learner模块与若干个worker模块；对任务环境进行数据采集，获得若干组第一经验数据与若干组第二经验数据；处理若干组第一经验数据与若干组第二经验数据，获得若干组高优先级数据与若干组替换数据；将若干组高优先级数据与若干组替换数据输入至learner模块中，获得若干组训练经验数据；智能体通过获取若干组训练经验数据来对当前策略进行更新。本发明专利技术解决了现有技术中存在的算法收敛困难、训练速度降低、算法鲁棒性差的缺陷，实现了智能体对环境的高效探索，具有单位时隙吞吐率高、学习速度快的特点。学习速度快的特点。学习速度快的特点。

全部详细技术资料下载

【技术实现步骤摘要】
基于专家经验的强化学习方法

[0001]本专利技术涉及强化学习方法
，特别涉及一种基于专家经验的强化学习方法。

技术介绍

[0002]现有技术中的强化学习算法，大多基于值函数的方法或基于策略梯度的方法。这两类方法都需要智能体与环境进行大量的数据交互，利用海量的实时经验数据对算法模型进行训练，才能得到较好的行动策略，然而，现有技术中的强化学习方法对于采样成本较高的任务难以取得较好的结果，存在算法收敛困难、训练速度降低、算法鲁棒性差的缺陷。

技术实现思路

[0003]根据本专利技术实施例，提供了一种基于专家经验的强化学习方法，包含如下步骤：在外部的智能体中创建专家数据缓冲器、优先级数据缓冲器、目标网络、预测网络、策略网络、learner模块与若干个worker模块；对外部的任务环境进行数据采集，获得若干组第一经验数据与若干组第二经验数据；处理若干组第一经验数据与若干组第二经验数据，获得若干组高优先级数据与若干组替换数据；将若干组高优先级数据与若干组替换数据输入至learner模块中，获得若干组训练经验数据；...

【技术保护点】

【技术特征摘要】
1.一种基于专家经验的强化学习方法，其特征在于，包含如下步骤：在外部的智能体中创建专家数据缓冲器、优先级数据缓冲器、目标网络、预测网络、策略网络、learner模块与若干个worker模块；对外部的任务环境进行数据采集，获得若干组第一经验数据与若干组第二经验数据；处理所述若干组第一经验数据与所述若干组第二经验数据，获得若干组高优先级数据与若干组替换数据；将所述若干组高优先级数据与所述若干组替换数据输入至所述learner模块中，获得若干组训练经验数据；所述智能体通过获取所述若干组训练经验数据来对所述策略网络的当前策略进行更新。2.如权利要求1所述基于专家经验的强化学习方法，其特征在于，对外部的任务环境进行数据采集，获得若干组第一经验数据与若干组第二经验数据，包含如下子步骤；通过人工采集的方式对所述任务环境中的高价值经验数据进行采集，获得若干组第一经验数据；所述若干个worker模块获取并使用所述策略网络的当前策略与所述任务环境进行交互，获得若干组第二经验数据。3.如权利要求2所述基于专家经验的强化学习方法，其特征在于，所述worker模块每个时隙采集一组所述第二经验数据，直至完成一整幕经验数据的收集，获得所述若干组第二经验数据。4.如权利要求1所述基于专家经验的强化学习方法，其特征在于，处理所述若干组第一经验数据与所述若干组第二经验数据，获得若干组高优先级数据与若干组替换数据，包含如下子步骤：将所述若干组第一经验数据存储于所述专家数据缓冲器；将所述若干组第二经验数据存储于所述优先级数据缓冲器，并将所述当前策略同步至所述learner模块；利用哈希算法处理所述若干组第一经验数据，获得与所述若干组第一经验数据一一对应的若干个第一哈希值...

【专利技术属性】
技术研发人员：曹江，杨思明，高原，郭洋，王平，王景，王晓楠，
申请(专利权)人：中国人民解放军军事科学院战争研究院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人