当前位置: 首页 > 专利查询>中国电波传播研究所中国电子科技集团公司专利>正文

一种融合监督学习的智能决策方法技术

技术编号：36295364 阅读：21 留言：0更新日期：2023-01-13 10:09

本发明专利技术公开了一种融合监督学习的智能决策方法，包括如下步骤：步骤1，构建深度强化学习网络：步骤2，分析环境，提取环境特征：步骤3，构建与深度强化学习网络Actor部分结构相同的监督学习网络，并使用环境模拟器生成数据训练监督学习网络：步骤4，将训练完成后的监督学习网络参数迁移给深度强化学习网络Actor部分并开启强化学习训练：步骤5，训练评价网络：步骤6，深度强化学习整体训练。本发明专利技术所公开的方法，通过迁移手段加快模型训练速度，在保证智能体包含有效知识方面，提出了融合监督学习的深度强化学习方法，实现预先为模型输入一些已有的专家经验，从基础上极大的提升了模型对环境的认知。境的认知。境的认知。

全部详细技术资料下载

【技术实现步骤摘要】
一种融合监督学习的智能决策方法

[0001]本专利技术属于深度强化学习领域，特别涉及该领域中的一种融合监督学习的智能决策方法。

技术介绍

[0002]随着科学技术的不断进步，强化学习和深度学习相结合，形成了深度强化学习领域，其在游戏、无人机编队、自动驾驶和物流调配等场景下表现出超越人类的水准。深度强化学习技术的核心思想是智能体在运行环境中自主试探，然后逐渐从自身所犯“错误”以及所获得的“奖励”信息中学习知识，从本质上来讲就是在不断增加对环境的探索程度或者说认知程度。这种训练方式在相对简单的环境中，智能体可以通过大量尝试，也即回合数目较多的训练，从而对环境中所包含的知识进行学习。但是随着环境复杂度的增加，尤其是在多智能体环境中，会使得环境中所包含的知识急剧膨胀，从而使得智能体探索和学习变得十分困难，需要进一步的引导才能使智能体学习到有用知识。
[0003]目前已有通过迁移加速多智能体深度强化学习训练的方式，如A3C使用迁移搭配分布式训练的方法，提升了训练速度和模型性能；IMPALA使用迁移搭配分布式进行训练数据采集，实现了训练数据高效收集；EPC通过迁移搭配课程学习的方法，使得多智能体团队可以实现规模快速扩张；MADDPG
‑
EN通过迁移搭配维度表征的方法，使得多智能体团队可以在一定程度上适应智能体规模的变化。尽管深度强化学习迁移研究已经在多方面取得了卓越成果，比如通过迁移实现智能体规模扩充，通过任务间映射实现智能体策略和知识迁移、通过泛化性的提升实现迁移性的提升等等，但是现有的深度强化学习算...

【技术保护点】

【技术特征摘要】
1.一种融合监督学习的智能决策方法，其特征在于，包括如下步骤：步骤1，构建深度强化学习网络：针对环境建立强化学习算法，构建深度强化学习网络，确定深度强化学习网络的输入、输出以及网络结构，并同时随机初始化深度强化学习网络参数；将监督学习思想与强化学习算法DDPG结合，深度强化学习网络训练方式遵照DDPG算法的训练模式进行；步骤2，分析环境，提取环境特征：依据环境特征制作环境模拟器并同时赋予模拟器专家经验O
exp
→
A
exp
和随机经验O
others
→
A
others
；设环境E，智能体在该环境中的观测维度为N
o
，动作维度为N
a
，在该环境中存在正确的专家经验，也就是存在正确的观测动作对，记O
exp
→
A
exp
，其中O
exp
的维度为N
o
，A
exp
的维度为N
a
，对环境中剩余的观测O
others
随机生成观测动作对，记做O
others
→
A
others
；步骤3，构建与深度强化学习网络Actor部分结构相同的监督学习网络，并使用环境模拟器生成数据训练监督学习网络：构建与深度强化学习网络Actor部分结构相同的监督学习网络，并随机初始化网络参数θ，使用训练集O
exp
→
A
exp
和O
others
→
A
others
训练监督学习网络SV直到网络收敛，记此监督学习网络参数为θ
′
；监督学习网络更新方式如下：先计算其中，o
n
∈{O
exp
→
A
exp
}∪{O
others
→
A
...

【专利技术属性】
技术研发人员：程尧，赵军，王莉，臧嵘，李承璟，史腾飞，冯阳，左伟庆，郭琛，
申请(专利权)人：中国电波传播研究所中国电子科技集团公司第二十二研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人