一种基于多先验策略的强化学习智能决策方法技术

技术编号:39644611 阅读:8 留言:0更新日期:2023-12-09 11:12
本发明专利技术涉及机器学习和强化学习技术领域,公开了一种基于多先验策略的强化学习智能决策方法,解决现有技术中利用强化学习进行智能决策时由于奖励稀疏

【技术实现步骤摘要】
一种基于多先验策略的强化学习智能决策方法


[0001]本专利技术涉及机器学习和强化学习
,具体涉及一种基于多先验策略的强化学习智能决策方法


技术介绍

[0002]强化学习作为一种解决贯序决策问题的算法框架,在自动驾驶

机器人控制

游戏对抗等诸多热门领域得到了广泛应用,它利用智能体与环境进行交互,通过交互过程中的不断试错来进行策略学习

随着人工智能方法的发展和硬件算力的飞速提升,强化学习模型变的愈发强大,其解决问题能力不断提升,在许多现实决策任务中取得了优异的成绩

然而,由于奖励稀疏

样本利用率低

环境过拟合等问题,强化学习在某些场景下学习效率低下,导致决策效果不佳

[0003]基于多先验策略的强化学习方法,指的是在已有多个先验策略的基础上进行强化学习智能决策,以避免从零开始的策略学习过程,使决策变得更加高效
。2016
年,
Rusu
等人成功地将知识蒸馏技术应用于强化学习中,提出了一种在多个先验策略的基础上快速学习目标策略的方法,有效实现了在多个决策任务中的快速决策,并在此之后又诞生了一些同类型的其它方法

但是,这些方法均存在一定局限性,即当目标决策任务发生变化时,方法所得到的目标策略难以保证决策质量,从而难以满足复杂多变的现实场景下的智能决策需求


技术实现思路

[0004]本专利技术以
DQN(Deep Q

Network)
算法为基础,提出一种基于多先验策略的强化学习智能决策方法,解决现有利用强化学习进行智能决策时遇到的奖励稀疏

样本利用率低

环境过拟合的问题

[0005]本专利技术解决上述技术问题采用的技术方案是:
[0006]一种基于多先验策略的强化学习智能决策方法,包括以下步骤:
[0007]A、
训练过程:
[0008]A1、
初始化目标策略网络,导入已有的多个先验策略,并针对每个先验策略初始化对应的重放缓冲区;
[0009]A2、
按顺序选取某一先验策略,利用目标策略网络和先验策略指导智能体进行决策,将决策产生的交互数据
(s,a,r,s

)
放入重放缓冲区;
[0010]A3、
从重放缓冲区中进行数据采样,获取一个由状态

动作

奖励及下一状态构成的训练集
{s
i
,a
i
,r
i
,s
i+1
}
,用于目标策略网络训练;
[0011]A4、
根据目标策略网络中的
behaviour
网络获取预测项,根据目标策略网络中的
target
网络和先验策略获取监督项,并结合先验策略的蒸馏损失,综合计算损失函数,利用梯度下降法对目标策略网络进行更新;
[0012]A5、
更新所用训练数据的被采样概率,将其放回重放缓冲区;
[0013]B、
智能决策过程:
[0014]利用智能体观测当前所处环境状态
S
,并将其输入目标策略网络中,根据网络输出进行动作选择,再执行动作并完成状态转移,以此类推,重复上述观察

决策过程直至决策任务完成

[0015]本专利技术的有益效果是:
[0016](1)
通过在目标决策任务中有效利用先验策略,可实现强化学习决策模型的快速训练,同时降低训练成本;
[0017](2)
在对先验策略进行蒸馏的过程中,仍令目标智能体与当前环境进行交互,充分利用了目标决策网络的逼近能力,在目标任务发生变化时仍可对先验策略进行有效利用;
[0018](3)
在训练数据采样的过程中,利用优先经验回放的思想对训练数据的优先级进行设置,可有效提高数据利用率,同时对环境中的奖励分布进行监控,可实现先验策略的快速修正

附图说明
[0019]图1为本专利技术实施例中的模型训练过程流程图;
[0020]图2为本专利技术实施例中的模型训练过程中的决策交互流程图;
[0021]图3为本专利技术实施例中的模型训练过程中的损失计算流程图;
[0022]图4为本专利技术实施例中的模型训练过程中的训练数据被采样概率更新流程图;
[0023]图5为本专利技术实施例中的模型智能决策流程图

具体实施方式
[0024]本专利技术旨在提出一种在强化学习中有效利用先验策略来进行智能决策的方法,解决现有强化学习决策时所面临的奖励稀疏

样本利用率低

环境过拟合的问题

该方法包括训练过程和智能决策过程

在训练过程中,首先在目标策略网络中对先验策略进行策略蒸馏处理,以实现先验策略的快速迁移;其次,利用先验策略给予目标智能体动作指导,帮助目标智能体与环境进行交互,使目标智能体通过环境的奖励反馈进行策略学习;随后,利用优先经验回放的思想,根据训练数据的
TD

Error
设置其优先级,并根据优先级调整数据的被采样概率,在先验策略表现不佳时可实现策略的快速修正,同时提高样本利用率;最后,结合策略蒸馏损失和智能体训练损失,根据梯度下降法对目标策略网络参数进行更新

在智能决策过程中,根据智能体观测的环境状态,将状态输入目标策略网络中,根据网络输出结果进行动作决策,并在执行动作后进行状态更新,直至决策完毕

[0025]实施例:
[0026]本实施例中,基于多先验策略的强化学习智能决策方法包括训练过程和智能决策过程两部分,以图像导航任务作为应用场景,下面结合附图进行具体阐述:
[0027]参见图1,训练过程包括:
[0028]S1、
初始化目标策略网络

目标策略网络主要由
behaviour
网络和
target
网络两部分构成,两个网络结构完全相同,均由3个卷积层和2个全连接层组成,均通过随机设置的网络参数完成网络初始化

其中,网络输入为当前智能体所观测的状态信息,网络输出为可执行的所有动作所构成的状态

动作价值向量,即
Q
向量;
[0029]S2、
导入已有的
N
个先验策略模型,先验策略模型的网络结构与目标策略网络相同,并为每一个先验策略都分别初始化一个重放缓冲区;
[0030]S3、
选择先验策略其中,
π
T
指代先验策略,...

【技术保护点】

【技术特征摘要】
1.
一种基于多先验策略的强化学习智能决策方法,其特征在于,包括训练过程和智能决策过程,训练过程具体包括以下步骤:
S1、
初始化目标策略网络;目标策略网络主要由
behaviour
网络和
tar get
网络两部分构成,两个网络结构完全相同,均由3个卷积层和2个全连接层组成,均通过随机设置的网络参数完成网络初始化;其中,网络输入为当前智能体所观测的状态信息,网络输出为可执行的所有动作所构成的状态

动作价值向量,即
Q
向量;
S2、
导入已有的
N
个先验策略模型,先验策略模型的网络结构与目标策略网络相同,并为每一个先验策略都分别初始化一个重放缓冲区;
S3、
选择先验策略其中,
π
T
指代先验策略,
t
代表所选择的先验策略编号,取值为1到
N
;在先验策略和目标策略的共同作用下,指导智能体与环境交互,分为以下几个步骤:
S31、
根据智能体当前观测的图像信息和全局导航视图,对图像数据进行预处理,主要包括图像裁剪

下采样

擦除背景

转为灰度图,将预处理后的图像信息的
RGB
像素矩阵作为当前状态
s

S32、
定义动作选择策略
π
(a|s)
并选择决策的实质指导策略,策略指的是由智能体的观测状态
s
到动作
a
的逻辑映射;
π
(a|s)
定义如下:其中,
π
T
(a∣s)
表示根据先验策略进行动作选择,
π
S
(a∣s)
表示根据目标策略网络进行动作选择,
β
是一个随训练过程逐渐变化的参数,在训练初期被设置为较大的值,并在此后逐步减小,代表着智能体的动作选择权由先验策略逐步过渡到目标策略;
S33、
若根据先验策略进行决策,则利用
π
T
(a∣s)
来指导动作选择;
π
T
(a∣s)
定义如下:其中,表示所选择的第
t
个先验策略的价值函数网络,
A
表示当前状态下智能体可执行的动作空间,
π
T
(a∣s)
的定义表示智能体将选择在第
t
个先验策略网络中输出最大的动作;
S34、
若根据目标策略进行决策,则利用
π
S
(a∣s)
来指导动作选择;
π
S
(a∣s)
定义如下:其中,

是一个逐渐变小的参数,代表动作选择的随机性逐渐降低,
Q
S
表示目标策略价值函数网络,
|A|
表示动作空间大小;
S35、
智能体在当前状态
s
下,执行根据
π
(a∣s)
所选择的动作
a
,获取奖励
r
,并观察到下一状态
s


S4、
设置交互数据
(s,a,r,s

)
的被采样概率为当前最大值,将其放入当前先验策略对应的重放缓冲区;
S5、
当重放缓冲区存储一定的交互数据后,根据数据的被采样概率
P
,从重放缓冲区中进行数据采样,构成训练集
minibatch{s,a,r,s

}

S6、
利用训练集
minibatch{s,a,r,s

}
中的交互数据进行模型训练,计算损失,分为以下几个步骤:
S61、
计算强化学习损失,主要分为以下几个步骤:
S611、
将训练数据中的状态
s
i
作为输入,根据目标策略网络中的
behaviour
网络,获取所执行动作
a
的预测
Q
值:其中,表示目标策略网络中的
behaviour
网络参数;
Q
表示预测得到的状态

动作价值;
S612、
将训练数据中的下一状态
s
i+1
作为输入,根据目标策略网络中的
target
网络和所获得的环境奖励
r
i
,并结合先验策略网络,计算监督项
Y
i
:其中,表示目标策略网络中的
target
网络参数;
γ

【专利技术属性】
技术研发人员:陈爱国付波王勇罗光春张思洁周鑫岑
申请(专利权)人:电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1