一种基于多先验策略的强化学习智能决策方法技术

技术编号：39644611 阅读：8 留言：0更新日期：2023-12-09 11:12

本发明专利技术涉及机器学习和强化学习技术领域，公开了一种基于多先验策略的强化学习智能决策方法，解决现有技术中利用强化学习进行智能决策时由于奖励稀疏

全部详细技术资料下载

【技术实现步骤摘要】
一种基于多先验策略的强化学习智能决策方法

[0001]本专利技术涉及机器学习和强化学习
，具体涉及一种基于多先验策略的强化学习智能决策方法
。

技术介绍

[0002]强化学习作为一种解决贯序决策问题的算法框架，在自动驾驶
、
机器人控制
、
游戏对抗等诸多热门领域得到了广泛应用，它利用智能体与环境进行交互，通过交互过程中的不断试错来进行策略学习
。
随着人工智能方法的发展和硬件算力的飞速提升，强化学习模型变的愈发强大，其解决问题能力不断提升，在许多现实决策任务中取得了优异的成绩
。
然而，由于奖励稀疏
、
样本利用率低
、
环境过拟合等问题，强化学习在某些场景下学习效率低下，导致决策效果不佳
。
[0003]基于多先验策略的强化学习方法，指的是在已有多个先验策略的基础上进行强化学习智能决策，以避免从零开始的策略学习过程，使决策变得更加高效
。2016
年，
Rusu
等人成功地将知识蒸馏技术应用于强化学习中，提出了一种在多个先验策略的基础上快速学习目标策略的方法，有效实现了在多个决策任务中的快速决策，并在此之后又诞生了一些同类型的其它方法
。
但是，这些方法均存在一定局限性，即当目标决策任务发生变化时，方法所得到的目标策略难以保证决策质量，从而难以满足复杂多变的现实场景下的智能决策需求
。

技术实现思路

[0004]本专利

【技术保护点】

【技术特征摘要】
1.
一种基于多先验策略的强化学习智能决策方法，其特征在于，包括训练过程和智能决策过程，训练过程具体包括以下步骤：
S1、
初始化目标策略网络；目标策略网络主要由
behaviour
网络和
tar get
网络两部分构成，两个网络结构完全相同，均由3个卷积层和2个全连接层组成，均通过随机设置的网络参数完成网络初始化；其中，网络输入为当前智能体所观测的状态信息，网络输出为可执行的所有动作所构成的状态
‑
动作价值向量，即
Q
向量；
S2、
导入已有的
N
个先验策略模型，先验策略模型的网络结构与目标策略网络相同，并为每一个先验策略都分别初始化一个重放缓冲区；
S3、
选择先验策略其中，
π
T
指代先验策略，
t
代表所选择的先验策略编号，取值为1到
N
；在先验策略和目标策略的共同作用下，指导智能体与环境交互，分为以下几个步骤：
S31、
根据智能体当前观测的图像信息和全局导航视图，对图像数据进行预处理，主要包括图像裁剪
、
下采样
、
擦除背景
、
转为灰度图，将预处理后的图像信息的
RGB
像素矩阵作为当前状态
s
；
S32、
定义动作选择策略
π
(a|s)
并选择决策的实质指导策略，策略指的是由智能体的观测状态
s
到动作
a
的逻辑映射；
π
(a|s)
定义如下：其中，
π
T
(a∣s)
表示根据先验策略进行动作选择，
π
S
(a∣s)
表示根据目标策略网络进行动作选择，
β
是一个随训练过程逐渐变化的参数，在训练初期被设置为较大的值，并在此后逐步减小，代表着智能体的动作选择权由先验策略逐步过渡到目标策略；
S33、
若根据先验策略进行决策，则利用
π
T
(a∣s)
来指导动作选择；
π
T
(a∣s)
定义如下：其中，表示所选择的第
t
个先验策略的价值函数网络，
A
表示当前状态下智能体可执行的动作空间，
π
T
(a∣s)
的定义表示智能体将选择在第
t
个先验策略网络中输出最大的动作；
S34、
若根据目标策略进行决策，则利用
π
S
(a∣s)
来指导动作选择；
π
S
(a∣s)
定义如下：其中，
∈
是一个逐渐变小的参数，代表动作选择的随机性逐渐降低，
Q
S
表示目标策略价值函数网络，
|A|
表示动作空间大小；
S35、
智能体在当前状态
s
下，执行根据
π
(a∣s)
所选择的动作
a
，获取奖励
r
，并观察到下一状态
s
′
；
S4、
设置交互数据
(s,a,r,s
′
)
的被采样概率为当前最大值，将其放入当前先验策略对应的重放缓冲区；
S5、
当重放缓冲区存储一定的交互数据后，根据数据的被采样概率
P
，从重放缓冲区中进行数据采样，构成训练集
minibatch{s,a,r,s
′
}
；
S6、
利用训练集
minibatch{s,a,r,s
′
}
中的交互数据进行模型训练，计算损失，分为以下几个步骤：
S61、
计算强化学习损失，主要分为以下几个步骤：
S611、
将训练数据中的状态
s
i
作为输入，根据目标策略网络中的
behaviour
网络，获取所执行动作
a
的预测
Q
值：其中，表示目标策略网络中的
behaviour
网络参数；
Q
表示预测得到的状态
‑
动作价值；
S612、
将训练数据中的下一状态
s
i+1
作为输入，根据目标策略网络中的
target
网络和所获得的环境奖励
r
i
，并结合先验策略网络，计算监督项
Y
i
：其中，表示目标策略网络中的
target
网络参数；
γ

【专利技术属性】
技术研发人员：陈爱国，付波，王勇，罗光春，张思洁，周鑫岑，
申请(专利权)人：电子科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人