【技术实现步骤摘要】
一种基于深度强化学习的风险感知路径规划方法
[0001]本专利技术属于路径规划
,尤其涉及一种基于深度强化学习的风险感知路径规划方法。
技术介绍
[0002]路径规划是全世界各国都在持续关注的重要问题。以人民群众的出行为例,根据数据显示高德地图2020年10月1日当天,用户驾车导航总里程超过36.6亿公里,较去年同比增长28.8%,用户出行导航规划次数超过24亿次,较去年同比增长46.8%。
[0003]无论是出于人们日益增加的出行需求,还是无人汽车、机器人路径规划、物流配送等技术,其底层技术就是路径规划技术,因此开展与路径规划相关的研究,以探索可能有助于减少消耗,节约时间的良策,是十分必要的,合适的路径规划,对于促进资源调配减少损耗具有重要意义。
[0004]纵观过去的研究和现在的一些研究,往往是依靠类似于迪杰斯特拉,A*等传统路径规划方法,这样的算法的弊端在于简化了问题设置,即常常默认地图上的信息是一成不变的,而实际上道路上的情况瞬息万变,这样的处理可能会导致现实世界中的一些变化难以得到有效的表达,
【技术保护点】
【技术特征摘要】
1.一种基于深度强化学习的风险感知路径规划方法,其特征在于,包括以下步骤:步骤1、地图数据采集及预处理:采集地图数据,根据用途将土地进行分类,形成节点信息;道路距离数据和风险值初始数据采用矩阵形式存储;步骤2、构件IMADQN模型:IMADQN模型包括神经网络群模块、经验回放缓存存放模块和代理及环境模块;神经网络群模块包括用于模拟不同类型智能体的多个神经网络,神经网络群模块的输入数据为agent,agent包括出发点和目的地,神经网络群模块的输出数据为动作action;代理及环境模块由多个代理和地图环境构成,在代理及环境模块中实施神经网络群模块输出的action,得到路径、路径距离和风险值,获取对应的奖励reward,并将经验存放在经验回放缓存存放模块中,然后更新agent的出发点并输入神经网络群模块,获取下一步action;步骤3、重复步骤2直至到达目的地,每经过数个action更新神经网络群模块;并重复上述步骤,使经验回放缓存存放模块中的经验持续更新,进行IMADQN模型的训练和更新。2.根据权利要求1所述的基于深度强化学习的风险感知路径规划方法,其特征在于,步骤1中:土地对应的节点根据用途分类,节点类型包括居住区、文教区、商业区和施工区;路径距离和风险值初始数据分别为3.根据权利要求1所述的基于深度强化学习的风险感知路径规划方法,其特征在于,步骤2中:所述经验包括agent的action、实施action前的位置状态s、实施action后的位置状态s
’
和reward。4.根据权利要求1所述的基于深度强化学习的风险感知路径规划方法,其特征在于,步骤2中:reward的计算公式为reward=αr1+βr2+r3其中r1代表action的路径距离和风险值,α为r1对应的比例因子;r2为action前后位置与目的地的相对距离变化的奖惩,agent在做出靠近目的地的action后获得奖励,远离则获得惩罚,β为r2对应的比例因子;r3为到达目的地的额外奖励。5.根据权利要求4所述的基于深度强化学习的风险感知路径规划方法,其特征在于,步骤2中:设第i步action为a
i
,且第n步action到达目的地,a
i
取得的reward为r
i
,对到达目的地前的所有a
i
的r
i...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。