【技术实现步骤摘要】
一种基于多先验策略的强化学习智能决策方法
[0001]本专利技术涉及机器学习和强化学习
,具体涉及一种基于多先验策略的强化学习智能决策方法
。
技术介绍
[0002]强化学习作为一种解决贯序决策问题的算法框架,在自动驾驶
、
机器人控制
、
游戏对抗等诸多热门领域得到了广泛应用,它利用智能体与环境进行交互,通过交互过程中的不断试错来进行策略学习
。
随着人工智能方法的发展和硬件算力的飞速提升,强化学习模型变的愈发强大,其解决问题能力不断提升,在许多现实决策任务中取得了优异的成绩
。
然而,由于奖励稀疏
、
样本利用率低
、
环境过拟合等问题,强化学习在某些场景下学习效率低下,导致决策效果不佳
。
[0003]基于多先验策略的强化学习方法,指的是在已有多个先验策略的基础上进行强化学习智能决策,以避免从零开始的策略学习过程,使决策变得更加高效
。2016
年,
Rusu
等人成功地将知识蒸馏技术应用于强化学习中,提出了一种在多个先验策略的基础上快速学习目标策略的方法,有效实现了在多个决策任务中的快速决策,并在此之后又诞生了一些同类型的其它方法
。
但是,这些方法均存在一定局限性,即当目标决策任务发生变化时,方法所得到的目标策略难以保证决策质量,从而难以满足复杂多变的现实场景下的智能决策需求
。
技术实现思路
[0004]本专利
【技术保护点】
【技术特征摘要】 【专利技术属性】
1.
一种基于多先验策略的强化学习智能决策方法,其特征在于,包括训练过程和智能决策过程,训练过程具体包括以下步骤:
S1、
初始化目标策略网络;目标策略网络主要由
behaviour
网络和
tar get
网络两部分构成,两个网络结构完全相同,均由3个卷积层和2个全连接层组成,均通过随机设置的网络参数完成网络初始化;其中,网络输入为当前智能体所观测的状态信息,网络输出为可执行的所有动作所构成的状态
‑
动作价值向量,即
Q
向量;
S2、
导入已有的
N
个先验策略模型,先验策略模型的网络结构与目标策略网络相同,并为每一个先验策略都分别初始化一个重放缓冲区;
S3、
选择先验策略其中,
π
T
指代先验策略,
t
代表所选择的先验策略编号,取值为1到
N
;在先验策略和目标策略的共同作用下,指导智能体与环境交互,分为以下几个步骤:
S31、
根据智能体当前观测的图像信息和全局导航视图,对图像数据进行预处理,主要包括图像裁剪
、
下采样
、
擦除背景
、
转为灰度图,将预处理后的图像信息的
RGB
像素矩阵作为当前状态
s
;
S32、
定义动作选择策略
π
(a|s)
并选择决策的实质指导策略,策略指的是由智能体的观测状态
s
到动作
a
的逻辑映射;
π
(a|s)
定义如下:其中,
π
T
(a∣s)
表示根据先验策略进行动作选择,
π
S
(a∣s)
表示根据目标策略网络进行动作选择,
β
是一个随训练过程逐渐变化的参数,在训练初期被设置为较大的值,并在此后逐步减小,代表着智能体的动作选择权由先验策略逐步过渡到目标策略;
S33、
若根据先验策略进行决策,则利用
π
T
(a∣s)
来指导动作选择;
π
T
(a∣s)
定义如下:其中,表示所选择的第
t
个先验策略的价值函数网络,
A
表示当前状态下智能体可执行的动作空间,
π
T
(a∣s)
的定义表示智能体将选择在第
t
个先验策略网络中输出最大的动作;
S34、
若根据目标策略进行决策,则利用
π
S
(a∣s)
来指导动作选择;
π
S
(a∣s)
定义如下:其中,
∈
是一个逐渐变小的参数,代表动作选择的随机性逐渐降低,
Q
S
表示目标策略价值函数网络,
|A|
表示动作空间大小;
S35、
智能体在当前状态
s
下,执行根据
π
(a∣s)
所选择的动作
a
,获取奖励
r
,并观察到下一状态
s
′
;
S4、
设置交互数据
(s,a,r,s
′
)
的被采样概率为当前最大值,将其放入当前先验策略对应的重放缓冲区;
S5、
当重放缓冲区存储一定的交互数据后,根据数据的被采样概率
P
,从重放缓冲区中进行数据采样,构成训练集
minibatch{s,a,r,s
′
}
;
S6、
利用训练集
minibatch{s,a,r,s
′
}
中的交互数据进行模型训练,计算损失,分为以下几个步骤:
S61、
计算强化学习损失,主要分为以下几个步骤:
S611、
将训练数据中的状态
s
i
作为输入,根据目标策略网络中的
behaviour
网络,获取所执行动作
a
的预测
Q
值:其中,表示目标策略网络中的
behaviour
网络参数;
Q
表示预测得到的状态
‑
动作价值;
S612、
将训练数据中的下一状态
s
i+1
作为输入,根据目标策略网络中的
target
网络和所获得的环境奖励
r
i
,并结合先验策略网络,计算监督项
Y
i
:其中,表示目标策略网络中的
target
网络参数;
γ
技术研发人员:陈爱国,付波,王勇,罗光春,张思洁,周鑫岑,
申请(专利权)人:电子科技大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。