【技术实现步骤摘要】
一种融合监督学习的智能决策方法
[0001]本专利技术属于深度强化学习领域,特别涉及该领域中的一种融合监督学习的智能决策方法。
技术介绍
[0002]随着科学技术的不断进步,强化学习和深度学习相结合,形成了深度强化学习领域,其在游戏、无人机编队、自动驾驶和物流调配等场景下表现出超越人类的水准。深度强化学习技术的核心思想是智能体在运行环境中自主试探,然后逐渐从自身所犯“错误”以及所获得的“奖励”信息中学习知识,从本质上来讲就是在不断增加对环境的探索程度或者说认知程度。这种训练方式在相对简单的环境中,智能体可以通过大量尝试,也即回合数目较多的训练,从而对环境中所包含的知识进行学习。但是随着环境复杂度的增加,尤其是在多智能体环境中,会使得环境中所包含的知识急剧膨胀,从而使得智能体探索和学习变得十分困难,需要进一步的引导才能使智能体学习到有用知识。
[0003]目前已有通过迁移加速多智能体深度强化学习训练的方式,如A3C使用迁移搭配分布式训练的方法,提升了训练速度和模型性能;IMPALA使用迁移搭配分布式进行训练数据采集,实现了训练数据高效收集;EPC通过迁移搭配课程学习的方法,使得多智能体团队可以实现规模快速扩张;MADDPG
‑
EN通过迁移搭配维度表征的方法,使得多智能体团队可以在一定程度上适应智能体规模的变化。尽管深度强化学习迁移研究已经在多方面取得了卓越成果,比如通过迁移实现智能体规模扩充,通过任务间映射实现智能体策略和知识迁移、通过泛化性的提升实现迁移性的提升等等,但是现有的深度强化学习算 ...
【技术保护点】
【技术特征摘要】
1.一种融合监督学习的智能决策方法,其特征在于,包括如下步骤:步骤1,构建深度强化学习网络:针对环境建立强化学习算法,构建深度强化学习网络,确定深度强化学习网络的输入、输出以及网络结构,并同时随机初始化深度强化学习网络参数;将监督学习思想与强化学习算法DDPG结合,深度强化学习网络训练方式遵照DDPG算法的训练模式进行;步骤2,分析环境,提取环境特征:依据环境特征制作环境模拟器并同时赋予模拟器专家经验O
exp
→
A
exp
和随机经验O
others
→
A
others
;设环境E,智能体在该环境中的观测维度为N
o
,动作维度为N
a
,在该环境中存在正确的专家经验,也就是存在正确的观测动作对,记O
exp
→
A
exp
,其中O
exp
的维度为N
o
,A
exp
的维度为N
a
,对环境中剩余的观测O
others
随机生成观测动作对,记做O
others
→
A
others
;步骤3,构建与深度强化学习网络Actor部分结构相同的监督学习网络,并使用环境模拟器生成数据训练监督学习网络:构建与深度强化学习网络Actor部分结构相同的监督学习网络,并随机初始化网络参数θ,使用训练集O
exp
→
A
exp
和O
others
→
A
others
训练监督学习网络SV直到网络收敛,记此监督学习网络参数为θ
′
;监督学习网络更新方式如下:先计算其中,o
n
∈{O
exp
→
A
exp
}∪{O
others
→
A
...
【专利技术属性】
技术研发人员:程尧,赵军,王莉,臧嵘,李承璟,史腾飞,冯阳,左伟庆,郭琛,
申请(专利权)人:中国电波传播研究所中国电子科技集团公司第二十二研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。