The invention discloses a path planning method that fuses a dense convolution network and a competitive architecture, in which a mobile robot sampled mini_batch transformation information from an experience playback memory and selected one as an online network and the other as a target network from two fusion path planning networks according to preset rules. The predicted on-line action value function Q (s, a; w) and corresponding greedy action are used to obtain the maximum value of the predicted target action value function; the loss function on the current time step is calculated according to the maximum value of the predicted target action value function and the predicted on-line action value function; and the online network is updated by the stochastic gradient descent method according to the loss function. The weight of the network is w. A lighter fusion path planning network is formed by fusing a dense convolution network and a competitive architecture, which simplifies the model parameters, reduces the training expenses, shortens the planning time and satisfies the needs of high-speed path planning to a certain extent.
【技术实现步骤摘要】
一种融合稠密卷积网络和竞争架构的路径规划方法
本专利技术涉及深度学习与人工智能领域,具体而言,本专利技术为一种融合稠密卷积网络和竞争架构的路径规划方法。
技术介绍
移动机器人的路径规划是指在给定环境、机器人模型,指定规划目标的情况下自主地计算出机器人的运动路径。在实际中,人们一般采用诸如蚁群算法、遗传算法等传统方法解决,但是随着科学技术的不断发展,移动机器人面临的环境越来越复杂多变,传统的路径规划方法已满足不了移动机器人需求。针对这种情况,人们提出了深度增强学习(DeepReinforcementLearning,简称,DRL),DRL将深度学习与强化学习进行了融合,其中深度学习主要负责利用神经网络的感知功能对输入的环境状态提取特征,实现环境状态到状态动作值函数的拟合;而强化学习则负责根据深度神经网络的输出和一定的探索策略完成决策,从而实现状态到动作的映射,其能够较好的满足移动机器人的移动需求。一般都以DRL中DQN网络及其改进算法为基础进行路径规划,但是,DQN算法存在动作值高估现象,且DQN网络的训练不够快速,不能满足高速路径规划的需求。
技术实现思路
为了寻找能够满足移动机器人高速路径规划的方案,本专利技术提供了一种融合稠密卷积网络和竞争架构的路径规划方法,该方法包括:步骤S1:移动机器人从经验回放存储器中采样mini-batch个转换信息(s,a,r,s′,d),按照预设规则从两个融合路径规划网络中选择一个作为在线网络,另一个则作为目标网络;所述融合路径规划网络由稠密卷积网络和竞争架构融合而成;其中,所述mini-batch为每个时间步上用来更新的采样 ...
【技术保护点】
1.一种融合稠密卷积网络和竞争架构的路径规划方法,其特征在于,该融合稠密卷积网络和竞争架构的路径规划方法包括:步骤S1:移动机器人从经验回放存储器中采样mini‑batch个转换信息(s,a,r,s′,d),按照预设规则从两个融合路径规划网络中选择一个作为在线网络,另一个则作为目标网络;所述融合路径规划网络由稠密卷积网络和竞争架构融合而成;其中,所述mini‑batch为每个时间步上用来更新的采样经验的个数;所述s为当前的环境状态;所述s′为与所述环境状态s对应的后继状态;所述a为所述移动机器人采用∈‑贪婪策略确认执行的动作;所述r为执行所述动作a后环境给予的即时奖励;所述d是任务结束与否的标志;步骤S2:根据所述环境状态s和所述在线网络获取预测的在线动作值函数Q(s,a;w),所述预测的在线动作值函数Q(s,a;w)为在所述环境状态s下所有可能动作a的预测动作函数值;根据所述后继状态s′和所述在线网络获取贪婪动作a′,所述贪婪动作a′为所述后继状态s′在所述在线网络中预测的动作值函数的最大值maxa′Q(s′,a′,w);所述w为所述在线网络的权重参数;步骤S3:根据所述后继状态s′ ...
【技术特征摘要】
1.一种融合稠密卷积网络和竞争架构的路径规划方法,其特征在于,该融合稠密卷积网络和竞争架构的路径规划方法包括:步骤S1:移动机器人从经验回放存储器中采样mini-batch个转换信息(s,a,r,s′,d),按照预设规则从两个融合路径规划网络中选择一个作为在线网络,另一个则作为目标网络;所述融合路径规划网络由稠密卷积网络和竞争架构融合而成;其中,所述mini-batch为每个时间步上用来更新的采样经验的个数;所述s为当前的环境状态;所述s′为与所述环境状态s对应的后继状态;所述a为所述移动机器人采用∈-贪婪策略确认执行的动作;所述r为执行所述动作a后环境给予的即时奖励;所述d是任务结束与否的标志;步骤S2:根据所述环境状态s和所述在线网络获取预测的在线动作值函数Q(s,a;w),所述预测的在线动作值函数Q(s,a;w)为在所述环境状态s下所有可能动作a的预测动作函数值;根据所述后继状态s′和所述在线网络获取贪婪动作a′,所述贪婪动作a′为所述后继状态s′在所述在线网络中预测的动作值函数的最大值maxa′Q(s′,a′,w);所述w为所述在线网络的权重参数;步骤S3:根据所述后继状态s′、所述贪婪动作a′以及所述目标网络获取预测的目标动作值函数的最大值Q(s′,argmaxa′Q(s′,a′,w),w-),所述w-为所述目标网络的权重参数;步骤S4:根据所述预测的目标动作值函数的最大值Q(s′,argmaxa′Q(s′,a′,w),w-)和所述预测的在线动作值函数Q(s,a;w)计算当前时间步上的损失函数:所述γ为折扣因子,所述为求所述采样的mini-batch个转换信息中转换信息(s,a,r,s′,d)的更新误差的期望值;步骤S5:根据所述损失函数利用随机梯度下降法...
【专利技术属性】
技术研发人员:魏国亮,黄颖,耿双乐,冯汉,陈晗,赵攀攀,
申请(专利权)人:上海理工大学,
类型:发明
国别省市:上海,31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。