一种融合监督学习的智能决策方法技术

技术编号:36295364 阅读:49 留言:0更新日期:2023-01-13 10:09
本发明专利技术公开了一种融合监督学习的智能决策方法,包括如下步骤:步骤1,构建深度强化学习网络:步骤2,分析环境,提取环境特征:步骤3,构建与深度强化学习网络Actor部分结构相同的监督学习网络,并使用环境模拟器生成数据训练监督学习网络:步骤4,将训练完成后的监督学习网络参数迁移给深度强化学习网络Actor部分并开启强化学习训练:步骤5,训练评价网络:步骤6,深度强化学习整体训练。本发明专利技术所公开的方法,通过迁移手段加快模型训练速度,在保证智能体包含有效知识方面,提出了融合监督学习的深度强化学习方法,实现预先为模型输入一些已有的专家经验,从基础上极大的提升了模型对环境的认知。境的认知。境的认知。

【技术实现步骤摘要】
一种融合监督学习的智能决策方法


[0001]本专利技术属于深度强化学习领域,特别涉及该领域中的一种融合监督学习的智能决策方法。

技术介绍

[0002]随着科学技术的不断进步,强化学习和深度学习相结合,形成了深度强化学习领域,其在游戏、无人机编队、自动驾驶和物流调配等场景下表现出超越人类的水准。深度强化学习技术的核心思想是智能体在运行环境中自主试探,然后逐渐从自身所犯“错误”以及所获得的“奖励”信息中学习知识,从本质上来讲就是在不断增加对环境的探索程度或者说认知程度。这种训练方式在相对简单的环境中,智能体可以通过大量尝试,也即回合数目较多的训练,从而对环境中所包含的知识进行学习。但是随着环境复杂度的增加,尤其是在多智能体环境中,会使得环境中所包含的知识急剧膨胀,从而使得智能体探索和学习变得十分困难,需要进一步的引导才能使智能体学习到有用知识。
[0003]目前已有通过迁移加速多智能体深度强化学习训练的方式,如A3C使用迁移搭配分布式训练的方法,提升了训练速度和模型性能;IMPALA使用迁移搭配分布式进行训练数据采集,实现了训练数据高效收集本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种融合监督学习的智能决策方法,其特征在于,包括如下步骤:步骤1,构建深度强化学习网络:针对环境建立强化学习算法,构建深度强化学习网络,确定深度强化学习网络的输入、输出以及网络结构,并同时随机初始化深度强化学习网络参数;将监督学习思想与强化学习算法DDPG结合,深度强化学习网络训练方式遵照DDPG算法的训练模式进行;步骤2,分析环境,提取环境特征:依据环境特征制作环境模拟器并同时赋予模拟器专家经验O
exp

A
exp
和随机经验O
others

A
others
;设环境E,智能体在该环境中的观测维度为N
o
,动作维度为N
a
,在该环境中存在正确的专家经验,也就是存在正确的观测动作对,记O
exp

A
exp
,其中O
exp
的维度为N
o
,A
exp
的维度为N
a
,对环境中剩余的观测O
others
随机生成观测动作对,记做O
others

A
others
;步骤3,构建与深度强化学习网络Actor部分结构相同的监督学习网络,并使用环境模拟器生成数据训练监督学习网络:构建与深度强化学习网络Actor部分结构相同的监督学习网络,并随机初始化网络参数θ,使用训练集O
exp

A
exp
和O
others

A
others
训练监督学习网络SV直到网络收敛,记此监督学习网络参数为θ

;监督学习网络更新方式如下:先计算其中,o
n
∈{O
exp

A
exp
}∪{O
others

A
...

【专利技术属性】
技术研发人员:程尧赵军王莉臧嵘李承璟史腾飞冯阳左伟庆郭琛
申请(专利权)人:中国电波传播研究所中国电子科技集团公司第二十二研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1