一种融合监督学习的智能决策方法技术

技术编号:36295364 阅读:16 留言:0更新日期:2023-01-13 10:09
本发明专利技术公开了一种融合监督学习的智能决策方法,包括如下步骤:步骤1,构建深度强化学习网络:步骤2,分析环境,提取环境特征:步骤3,构建与深度强化学习网络Actor部分结构相同的监督学习网络,并使用环境模拟器生成数据训练监督学习网络:步骤4,将训练完成后的监督学习网络参数迁移给深度强化学习网络Actor部分并开启强化学习训练:步骤5,训练评价网络:步骤6,深度强化学习整体训练。本发明专利技术所公开的方法,通过迁移手段加快模型训练速度,在保证智能体包含有效知识方面,提出了融合监督学习的深度强化学习方法,实现预先为模型输入一些已有的专家经验,从基础上极大的提升了模型对环境的认知。境的认知。境的认知。

【技术实现步骤摘要】
一种融合监督学习的智能决策方法


[0001]本专利技术属于深度强化学习领域,特别涉及该领域中的一种融合监督学习的智能决策方法。

技术介绍

[0002]随着科学技术的不断进步,强化学习和深度学习相结合,形成了深度强化学习领域,其在游戏、无人机编队、自动驾驶和物流调配等场景下表现出超越人类的水准。深度强化学习技术的核心思想是智能体在运行环境中自主试探,然后逐渐从自身所犯“错误”以及所获得的“奖励”信息中学习知识,从本质上来讲就是在不断增加对环境的探索程度或者说认知程度。这种训练方式在相对简单的环境中,智能体可以通过大量尝试,也即回合数目较多的训练,从而对环境中所包含的知识进行学习。但是随着环境复杂度的增加,尤其是在多智能体环境中,会使得环境中所包含的知识急剧膨胀,从而使得智能体探索和学习变得十分困难,需要进一步的引导才能使智能体学习到有用知识。
[0003]目前已有通过迁移加速多智能体深度强化学习训练的方式,如A3C使用迁移搭配分布式训练的方法,提升了训练速度和模型性能;IMPALA使用迁移搭配分布式进行训练数据采集,实现了训练数据高效收集;EPC通过迁移搭配课程学习的方法,使得多智能体团队可以实现规模快速扩张;MADDPG

EN通过迁移搭配维度表征的方法,使得多智能体团队可以在一定程度上适应智能体规模的变化。尽管深度强化学习迁移研究已经在多方面取得了卓越成果,比如通过迁移实现智能体规模扩充,通过任务间映射实现智能体策略和知识迁移、通过泛化性的提升实现迁移性的提升等等,但是现有的深度强化学习算法在面对多智能体环境时,仍存在一定缺陷:大部分是先在简单源任务中进行训练,然后再迁移到目标任务中,但是不论源任务场景有多简单,其训练仍是使用深度强化学习来进行的。这种加速方式对训练速度的提升极其有限,对源任务的设计和挑选也是一个耗时费力的过程,此外这种方式也无法保证被训练的智能体含有在目标任务中有效的知识。

技术实现思路

[0004]本专利技术所要解决的技术问题就是提供一种融合监督学习的智能决策方法,实现监督学习和强化学习的融合,通过对监督学习网络的设计达到知识通用并完成迁移,使智能体具备一定的先验知识,完成快速有效的前期学习过程,以此加强智能体训练的速度和效率,提升智能体对环境的基础认知能力,极大提升算法的收敛速度。
[0005]本专利技术采用如下技术方案:
[0006]一种融合监督学习的智能决策方法,其改进之处在于,包括如下步骤:
[0007]步骤1,构建深度强化学习网络:
[0008]针对环境建立强化学习算法,构建深度强化学习网络,确定深度强化学习网络的输入、输出以及网络结构,并同时随机初始化深度强化学习网络参数;
[0009]将监督学习思想与强化学习算法DDPG结合,深度强化学习网络训练方式遵照DDPG
算法的训练模式进行;
[0010]步骤2,分析环境,提取环境特征:
[0011]依据环境特征制作环境模拟器并同时赋予模拟器专家经验O
exp

A
exp
和随机经验O
others

A
others

[0012]设环境E,智能体在该环境中的观测维度为N
o
,动作维度为N
a
,在该环境中存在正确的专家经验,也就是存在正确的观测动作对,记O
exp

A
exp
,其中O
exp
的维度为N
o
,A
exp
的维度为N
a
,对环境中剩余的观测O
others
随机生成观测动作对,记做O
others

A
others

[0013]步骤3,构建与深度强化学习网络Actor部分结构相同的监督学习网络,并使用环境模拟器生成数据训练监督学习网络:
[0014]构建与深度强化学习网络Actor部分结构相同的监督学习网络,并随机初始化网络参数θ,使用训练集O
exp

A
exp
和O
others

A
others
训练监督学习网络SV直到网络收敛,记此监督学习网络参数为θ


[0015]监督学习网络更新方式如下:
[0016]先计算其中,o
n
∈{O
exp

A
exp
}∪{O
others

A
others
},代表在观察o
n
下监督学习网络预测出来的动作,也就是预测标签,softmax()是一种把输出值转换至[0,1]范围内、且输出值和为1的函数,W是权重,B是偏置,
[0017]然后使用梯度下降法,最小化损失函数L(θ):
[0018][0019]其中,θ是监督学习网络的初始化网络参数,N是该网络的训练批次,a
n
是在集合{O
exp

A
exp
}∪{O
others

A
others
}中o
n
的实际映射,也就是真实标签;
[0020]训练完成后的监督学习网络参数θ

中包含正确的专家经验,也就是包含正确的观测动作对O
exp

A
exp

[0021]步骤4,将训练完成后的监督学习网络参数θ

迁移给深度强化学习网络Actor部分并开启强化学习训练:
[0022]将网络参数θ

迁移赋值给深度强化学习网络Actor部分,使用网络参数θ

来初始化环境E中Actor

Critic框架深度强化学习网络的Actor部分,使深度强化学习网络的Actor部分同样包含专家经验O
exp

A
exp

[0023]步骤5,训练评价网络:
[0024]开启深度强化学习网络Critic部分的更新,并同时关闭深度强化学习网络Actor部分的更新,训练Critic直至网络收敛,Critic网络与Actor网络匹配,该部分网络更新公式为:
[0025][0026]其中,J(w)为Critic网络损失函数,m为批次大小,y是目标值,Q()是值函数,φ(S)是全局状态S的特征,A表示所有动作,w为Critic网络的参数;
[0027]步骤6,深度强化学习整体训练:
[0028]当Critic网络达到收敛之后,开启Actor网络更新,进行整体深度强化学习的训练,直至网络收敛,训练更新公式为:
[0029][0030]其中,J(θ)为Act本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种融合监督学习的智能决策方法,其特征在于,包括如下步骤:步骤1,构建深度强化学习网络:针对环境建立强化学习算法,构建深度强化学习网络,确定深度强化学习网络的输入、输出以及网络结构,并同时随机初始化深度强化学习网络参数;将监督学习思想与强化学习算法DDPG结合,深度强化学习网络训练方式遵照DDPG算法的训练模式进行;步骤2,分析环境,提取环境特征:依据环境特征制作环境模拟器并同时赋予模拟器专家经验O
exp

A
exp
和随机经验O
others

A
others
;设环境E,智能体在该环境中的观测维度为N
o
,动作维度为N
a
,在该环境中存在正确的专家经验,也就是存在正确的观测动作对,记O
exp

A
exp
,其中O
exp
的维度为N
o
,A
exp
的维度为N
a
,对环境中剩余的观测O
others
随机生成观测动作对,记做O
others

A
others
;步骤3,构建与深度强化学习网络Actor部分结构相同的监督学习网络,并使用环境模拟器生成数据训练监督学习网络:构建与深度强化学习网络Actor部分结构相同的监督学习网络,并随机初始化网络参数θ,使用训练集O
exp

A
exp
和O
others

A
others
训练监督学习网络SV直到网络收敛,记此监督学习网络参数为θ

;监督学习网络更新方式如下:先计算其中,o
n
∈{O
exp

A
exp
}∪{O
others

A
...

【专利技术属性】
技术研发人员:程尧赵军王莉臧嵘李承璟史腾飞冯阳左伟庆郭琛
申请(专利权)人:中国电波传播研究所中国电子科技集团公司第二十二研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1