一种基于改进式DQN的升降式自动立体停车库调度方法技术

技术编号:36183810 阅读:23 留言:0更新日期:2022-12-31 20:43
本发明专利技术公开了一种基于改进式DQN的升降式自动立体停车库调度方法;通过物联网技术获取车库当前时刻状态,采用改进式DQN对升降式自动立体停车库调度模型进行训练,以最小化用户等待时间和最小化机械损失成本为目标,得到具有在随机干扰下做出最优决策能力的Q网络,并利用Q网络引导车库进行实时调度。本发明专利技术提供的深度强化学习方法解决了大规模复杂状态空间可能导致的维度灾难问题,并能实现动态实时调度。此外,不同于传统的DQN强化学习方法,本发明专利技术改进的DQN算法结合了蒙特卡洛思想,通过采样若干经历完整的状态序列来估计状态价值,使得车库调度的每一步动作都能充分考虑到其对后续调度的影响,更符合车库调度的现实需求。求。求。

【技术实现步骤摘要】
一种基于改进式DQN的升降式自动立体停车库调度方法


[0001]本专利技术涉及立体停车库调度优化领域,尤其涉及一种基于改进式DQN的升降式自动立体停车库调度方法。

技术介绍

[0002]随着城市高速发展、汽车保有量激增,为了解决停车位供需不平衡的问题,立体停车库逐渐发展起来。
[0003]升降式自动立体停车库是一种新型的立体车库,具备以下几点优势:
[0004]一是集约式存放车辆,提高空间利用率;
[0005]二是自动化存取车,大大缩短存取时间,提高效率;
[0006]三是相对传统车库的敞开式管理改为封闭式管理,实现人车分流,提高了安全性。
[0007]升降式自动立体停车库可建设为若干层,每层有若干个固定车位,依靠中央升降电梯对车辆进行转运,完成自动存取车。
[0008]当车辆进入零层停放在自动旋转台后,驾驶人即可下车离开,自动旋转台会将车辆水平旋转180
°
使得车头朝外,随后电梯的嵌入式底盘运载器通过伸缩臂将车辆带入电梯载车板,车辆便可跟随电梯运动至目标停车位。取车过程同理。
[0009]升降式自动立体停车库电梯调度的控制算法是控制系统的核心技术,在停车高峰时期,调度策略影响着存取效率。
[0010]车库环境和状态是大规模的、复杂的和不确定的,传统的智能算法难以解决这样的问题,既不能实现动态的实时调度,也容易陷入局部最优解或面临维度灾难。

技术实现思路

[0011]针对传统智能算法存在的不足,本专利技术提出一种基于改进式DQN的升降式自动立体停车库调度方法;
[0012]本专利技术能够通过车库当前状态信息直接获取最优动作,并能方便、高效地实现模型参数优化。
[0013]本专利技术通过下述技术方案实现:
[0014]一种基于改进式DQN的升降式自动立体停车库调度方法,包括以下步骤:
[0015]S1,通过物联网获取当前车库状态信息;
[0016]S2,通过步骤S1获取车库的实时信息后,将升降式自动立体停车库调度模型构造为马尔科夫决策模型,利用马尔科夫决策过程建立升降式自动立体停车库实时调度问题模型,包括状态空间设置、动作定义和奖励函数设置;
[0017]S3,将实时状态存储在经验池中,随机选取若干样本作为DQN训练的输入;
[0018]S4,采用改进式DQN并结合状态、候选动作集以及奖励函数,对升降式自动立体停车库调度模型进行训练,得到具有在随机干扰下做出最优决策能力的Q网络;
[0019]S5,利用训练完成的Q网络引导立体停车库进行实时调度。
[0020]上述步骤S1中获取的车库当前时刻状态信息包含:当前决策阶段各个区域每层车位剩余数量、各个区域当前排队车辆数以及申请入库的车辆的到达车库时间、预计停放时长、质量等信息。
[0021]上述步骤S2中奖励函数的公式为:
[0022][0023]式中,R
t+1
为即时回报,Y1为用户等待时间,Y2为机械损失能耗,T
i
为用户将车辆停放在自动旋转台的时刻,T
i
为车辆到达车库时刻,m
i
为车辆质量,d
i
为电梯搬运距离,k为搬运能耗系数,w1,w2∈(0,1)为权重系数。
[0024]上述步骤S4中采用DQN对升降式自动立体停车库调度模型进行训练,包含以下步骤:
[0025]S4

1,初始化容量为N的经验池D、Q网络及其参数θ、目标网络及其参数令设置折扣因子γ、所有车辆决策完毕的终止时间T和最大训练迭代次数M;
[0026]S4

2,根据当前状态计算所有候选动作的状态动作价值,使用ε

贪婪策略选择最优动作;执行完动作后,系统状态更新为下一时刻状态,并计算即时回报;
[0027]S4

3,当车库结束运行后(即完成一轮迭代),对于每一辆停放的车辆,计算其对应的长期回报G
t
并近似估计状态动作价值Q(s
t
,a
t
),同时将其对应的状态、动作以及Q值储存至经验池中;
[0028]S4

4,从经验池中随机选取若干样本进行训练,训练结束后再开始新的一轮迭代,如此循环直到完成所有迭代;
[0029]S4

5,以目标网络的期望状态动作函数值作为标签,Q网络输出当前预测的Q值,并根据平方目标偏差对Q网络参数θ进行梯度下降和反向传播求解;
[0030]S4

6,Q网络每更新一定步数后,将Q网络的参数θ赋予给目标网络
[0031]上述步骤S4

2中采用ε

贪婪策略选择最优动作,其计算公式为:
[0032][0033]式中,a
i
为选择的最优动作,ε为范围在[0,1]之间的贪心值。
[0034]上述步骤S4

3中采用多组经历完整的状态序列的长期回报G
t
,来近似估计状态价值Q(s
t
,a
t
),其计算公式为:
[0035]Q(s
t
,a
t
)=E[G
t
|S=s
t
,a=a
t
][0036][0037]上述步骤S2中:
[0038]状态空间设置;特征变量包括车位剩余数X
res
,当前排队车辆数X
wai
,以及车辆J
i
的信息(到达车库时间停放时间质量m
i
);
[0039]动作定义;为准备入库的车辆指定最合适的停车位作为动作,包括车位的具体区域和楼层信息;
[0040]奖励函数设置;以最小化用户等待时间和最小化机械设备损失成本作为目标,并据此设定奖励函数。
[0041]本专利技术相对于现有技术,具有如下的优点及效果:
[0042]1.本专利技术采用基于无模型的强化学习,可以根据当前车库状态、入库车辆信息来决策最佳动作,车库调度优化具有实时性。
[0043]2.本专利技术不同于传统的DQN强化学习方法,本专利技术结合了蒙特卡洛思想,将one

step的状态价值估计策略改为通过采样若干经历完整的状态序列(episode)来估计状态价值,在车库调度中能够充分考虑到每一步动作对后续调度的影响。
[0044]3.由于车库调度需要连续的时空信息作为输入,状态空间十分复杂,因此更新状态动作价值时采用价值函数逼近法,利用神经网络进行计算,避免了“维度灾难”。
[0045]4.本专利技术采用的DQN算法具有经验回放功能,可以将车库调度系统探索环境得到的数据储存起来。这使得样本能重复利用,从而提高了学习率。同时降低了数据之间的关联性,避免陷入局部最优。
[本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于改进式DQN的升降式自动立体停车库调度方法,其特征在于,包括以下步骤:S1,通过物联网获取当前车库状态信息;S2,利用马尔科夫决策过程建立升降式自动立体停车库实时调度问题模型,包括状态空间设置、动作定义和奖励函数设置;S3,将实时状态存储在经验池中;S4,采用改进式DQN并结合状态、候选动作集以及奖励函数,对升降式自动立体停车库调度模型进行训练,得到具有在随机干扰下做出最优决策能力的Q网络;S5,利用Q网络引导立体停车库进行实时调度。2.根据权利要求1所述基于改进式DQN的升降式自动立体停车库调度方法,其特征在于:步骤S1中获取的车库当前时刻状态信息包含:当前决策阶段各个区域每层车位剩余数量、各个区域当前排队车辆数以及申请入库的车辆的到达车库时间、预计停放时长和质量信息。3.根据权利要求2所述基于改进式DQN的升降式自动立体停车库调度方法,其特征在于:步骤S2中奖励函数的公式为:式中,R
t+1
为即时回报,Y1为用户等待时间,Y2为机械损失能耗,T
i
为用户将车辆停放在自动旋转台的时刻,t
i
为车辆到达车库时刻,m
i
为车辆质量,d
i
为电梯搬运距离,k为搬运能耗系数,w1,w2∈(0,1)为权重系数。4.根据权利要求3所述基于改进式DQN的升降式自动立体停车库调度方法,其特征在于:步骤S4中采用DQN对升降式自动立体停车库调度模型进行训练,包含以下步骤:S4

1,初始化容量为N的经验池D、Q网络及其参数θ、目标网络及其参数令设置折扣因子γ、所有车辆决策完毕的终止时间T和最大训练迭代次数M;S4

2,根据当前状态计算所有候选动作的状态动作价值,使用ε

贪婪策略选择最优动作;执行完动作后,系统状态更新为下一时刻状态,并计算即时回报;S4

3,当车库结束运行后,即完成一轮迭代,对于每一辆停放的车辆,计算其对应的长期回报G
t
并近...

【专利技术属性】
技术研发人员:樊舒颖郭子鹏巫威眺甄文至林晓鹏邢益玮
申请(专利权)人:华南理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1