【技术实现步骤摘要】
一种基于深度强化学习的全自动停车场调度方法
本专利技术涉及智能泊车
,具体涉及一种基于深度强化学习的全自动停车场的调度方法。
技术介绍
随着我国车辆的保有量不断增加,停车场所停放的车辆越来越多,对于车辆的停放需要更加智能化的管理,社会对全自动化无人停车场的需求应运而生,希望司机行驶至停车场入口后,由智能停车场将车运送至空闲车位;司机取车时,停车场将车运送至停车场司机所在出口。目前全自动停车场一般采用泊车机器人等自动化运送装置,将车辆从一位置转移至另一位置,实现自动化停车/取车。但在同一时间同一路线上大多只允许一辆车进行自动泊车,导致自动泊车的效率较低。如果多辆同时进行泊车的,在控制过程当中可能发送碰撞事故。因此如何高效而安全地解决自动泊车的调度问题,是目前全自动停车场需要首先解决的问题。目前强化学习在机器人导航、智能交通等领域得到了广泛应用,可以将其应用到全自动停车场。多智能体协作系统有两种架构:集中式强化学习和分布式强化学习。集中式强化学习指由一个中央学习单元负责训练和学习,输入是所有智能体状态的拼接,输出是 ...
【技术保护点】
1.一种基于深度强化学习的全自动停车场调度方法,称为带全局环境模型的深度确定性策略梯度算法GDDPG(Global-model based Deep Deterministic Policy Gradient),其特征在于:所述方法包括如下步骤:步骤1:建立全自动停车场的环境模型;步骤2:建立智能体的模型,包括状态、动作和回报函数;步骤3:为每个智能体搭建网络模型;步骤4:初始化经验池;步骤5:根据算法进行训练,直到模型精度达到预设阈值,得到多智能体协同路径规划的最优方案;步骤6:模型收敛后,停止训练。/n
【技术特征摘要】
1.一种基于深度强化学习的全自动停车场调度方法,称为带全局环境模型的深度确定性策略梯度算法GDDPG(Global-modelbasedDeepDeterministicPolicyGradient),其特征在于:所述方法包括如下步骤:步骤1:建立全自动停车场的环境模型;步骤2:建立智能体的模型,包括状态、动作和回报函数;步骤3:为每个智能体搭建网络模型;步骤4:初始化经验池;步骤5:根据算法进行训练,直到模型精度达到预设阈值,得到多智能体协同路径规划的最优方案;步骤6:模型收敛后,停止训练。
2.根据权利要求1所述的全自动停车场的环境模型,其特征在于,包括以下步骤:将停车场的功能区域进行栅格化,其中,每个出口和入口占据一个栅格,每个车位一个栅格;车道按照车位大小划分为不同数量的栅格,白色栅格表示可行区域,黑色栅格表示障碍物;从地图左上角栅格开始,依次对栅格进行编号,以Nx×Ny的地图为例,编号为i的栅格对应的行列坐标(xi,yi)为:,其中%表示取余运算,/表示求商运算,⌈∙⌉为向上取整运算。
3.根据权利要求1所述的智能体模型,其特征在于:智能体状态定义为:,其中为智能体i的状态,N是允许同时处于活动状态的智能体数量,即泊车和提车总数之和;智能体i,时刻t的状态定义为:,其中为智能体i在时刻t的位置,即在栅格地图上的编号;为智能体i的目标点位置,即分配的目标车位在栅格地图上的编号;为智能体i在时刻t的线速度,归一化为[0,1]区间;即智能体i在时刻t的角速度,归一化为[-1,1]范围内。
4.根据权利要求1所述的智能体模型,其特征在于:每个智能体可执行的动作定义为线速度和角速度的控制指令,即...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。