一种融合稠密卷积网络和竞争架构的路径规划方法技术

技术编号:18939144 阅读:144 留言:0更新日期:2018-09-15 10:47
本发明专利技术公开一种融合稠密卷积网络和竞争架构的路径规划方法,其中移动机器人从经验回放存储器中采样mini‑batch个转换信息,并按照预设规则从两个融合路径规划网络中选择一个作为在线网络,另一个则作为目标网络;通过预测的在线动作值函数Q(s,a;w)和对应贪婪动作,获取预测的目标动作值函数的最大值;根据预测的目标动作值函数的最大值和预测的在线动作值函数计算当前时间步上的损失函数;根据损失函数利用随机梯度下降法更新在线网络权重w。本发明专利技术通过融合稠密卷积网络和竞争架构组成了一个更加轻盈的融合路径规划网络,简化了模型参数,降低了训练开支,还缩短了规划时间,在一定程度上满足高速路径规划的需要。

A path planning method based on dense convolution network and competitive architecture

The invention discloses a path planning method that fuses a dense convolution network and a competitive architecture, in which a mobile robot sampled mini_batch transformation information from an experience playback memory and selected one as an online network and the other as a target network from two fusion path planning networks according to preset rules. The predicted on-line action value function Q (s, a; w) and corresponding greedy action are used to obtain the maximum value of the predicted target action value function; the loss function on the current time step is calculated according to the maximum value of the predicted target action value function and the predicted on-line action value function; and the online network is updated by the stochastic gradient descent method according to the loss function. The weight of the network is w. A lighter fusion path planning network is formed by fusing a dense convolution network and a competitive architecture, which simplifies the model parameters, reduces the training expenses, shortens the planning time and satisfies the needs of high-speed path planning to a certain extent.

【技术实现步骤摘要】
一种融合稠密卷积网络和竞争架构的路径规划方法
本专利技术涉及深度学习与人工智能领域,具体而言,本专利技术为一种融合稠密卷积网络和竞争架构的路径规划方法。
技术介绍
移动机器人的路径规划是指在给定环境、机器人模型,指定规划目标的情况下自主地计算出机器人的运动路径。在实际中,人们一般采用诸如蚁群算法、遗传算法等传统方法解决,但是随着科学技术的不断发展,移动机器人面临的环境越来越复杂多变,传统的路径规划方法已满足不了移动机器人需求。针对这种情况,人们提出了深度增强学习(DeepReinforcementLearning,简称,DRL),DRL将深度学习与强化学习进行了融合,其中深度学习主要负责利用神经网络的感知功能对输入的环境状态提取特征,实现环境状态到状态动作值函数的拟合;而强化学习则负责根据深度神经网络的输出和一定的探索策略完成决策,从而实现状态到动作的映射,其能够较好的满足移动机器人的移动需求。一般都以DRL中DQN网络及其改进算法为基础进行路径规划,但是,DQN算法存在动作值高估现象,且DQN网络的训练不够快速,不能满足高速路径规划的需求。
技术实现思路
为了寻找能够满足移动机器人高速路径规划的方案,本专利技术提供了一种融合稠密卷积网络和竞争架构的路径规划方法,该方法包括:步骤S1:移动机器人从经验回放存储器中采样mini-batch个转换信息(s,a,r,s′,d),按照预设规则从两个融合路径规划网络中选择一个作为在线网络,另一个则作为目标网络;所述融合路径规划网络由稠密卷积网络和竞争架构融合而成;其中,所述mini-batch为每个时间步上用来更新的采样经验的个数;所述s为当前的环境状态;所述s′为与所述环境状态s对应的后继状态;所述a为所述移动机器人采用∈-贪婪策略确认执行的动作;所述r为执行所述动作a后环境给予的即时奖励;所述d是任务结束与否的标志;步骤S2:根据所述环境状态s和所述在线网络获取预测的在线动作值函数Q(s,a;w),所述预测的在线动作值函数Q(s,a;w)为在所述环境状态s下所有可能动作a的预测动作函数值;根据所述后继状态s′和所述在线网络获取贪婪动作a′,所述贪婪动作a′为所述后继状态s′在所述在线网络中预测的动作值函数的最大值maxa′Q(s′,a′,w);所述w为所述在线网络的权重参数;步骤S3:根据所述后继状态s′、所述贪婪动作a′以及所述目标网络获取预测的目标动作值函数的最大值Q(s′,argmaxa′Q(s′,a′,w),w-),所述w-为所述目标网络的权重参数;步骤S4:根据所述预测的目标动作值函数的最大值Q(s′,argmaxa′Q(s′,a′,w),w-)和所述预测的在线动作值函数Q(s,a;w)计算当前时间步上的损失函数:所述γ为折扣因子,所述为求所述采样的mini-batch个转换信息中转换信息(s,a,r,s′,d)的更新误差的期望值;步骤S5:根据所述损失函数利用随机梯度下降法在每个时间步上更新所述在线网络的权重参数w,每隔τ个时间步更新所述目标网络的权重参数w-,所述τ为大于0的自然数。优选地,所述预设规则为按照50%的概率从两个融合路径规划网络中选择一个作为在线网络,另一个则为目标网络。优选地,所述步骤S1之前包括如下步骤:移动机器人根据所处的位置信息和SLAM重构的环境地图生成环境状态s;通过环境状态s、后继状态s′以及两个融合路径规划网络生成转换信息,并存储在经验回放存储器中。优选地,所述通过环境状态s、后继状态s′以及两个融合路径规划网络生成转换信息,并存储在经验回放存储器中包括如下步骤:步骤P1:将当前的环境状态s同时输入到所述两个融合路径规划网络中的所述在线网络和所述目标网络中;步骤P2:根据∈-贪婪策略确定动作a并执行;步骤P3:接收环境反馈回来的即时奖励r,同时获得环境在执行动作a后转换到的后继状态s′,从而得到转换信息(s,a,r,s′,d);步骤P4:重复步骤P1、步骤P2以及步骤P3,并在每个时间上将采集到的转换信息存储到经验回放存储器中。优选地,所述步骤P2包括:以概率∈随机选择一个动作a或者以概率1-∈根据所述在线网络的输出Q函数选择最大Q值对应的贪婪动作。优选地,所述融合路径规划网络由稠密卷积网络和竞争架构融合而成包括如下步骤:在所述稠密卷积网络的最后输出层应用所述竞争架构。与现有技术相比,本专利技术一种融合稠密卷积网络和竞争架构的路径规划方法具有如下有益效果:本专利技术一种融合稠密卷积网络和竞争架构的路径规划方法通过融合稠密卷积网络和竞争架构形成更加轻盈的融合路径规划网络,简化了模型参数,降低了训练开支,还缩短了规划时间,在一定程度上满足高速路径规划的需要。此外,该融合稠密卷积网络和竞争架构的路径规划方法还能保证机器人对快速变化的环境具有很强的泛化能力,并达到更加顶尖的路径规划性能,从而更为高效的实现了移动机器人的路径规划。本专利技术附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本专利技术的实践了解到。附图说明本专利技术上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:图1是本专利技术实施例一种融合稠密卷积网络和竞争架构的路径规划方法的结构示意图。具体实施方式下面详细描述本专利技术的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本专利技术,而不能解释为对本专利技术的限制。请参阅图1,本专利技术实施例一种融合稠密卷积网络和竞争架构的路径规划方法,其包括如下步骤:步骤S1:移动机器人从经验回放存储器中采样mini-batch个转换信息(s,a,r,s′,d),按照预设规则从两个融合路径规划网络中选择一个作为在线网络,另一个则作为目标网络;所述融合路径规划网络由稠密卷积网络和竞争架构融合而成,其中,所述mini-batch为每个时间步上用来更新的采样经验的个数;所述s为当前的环境状态;所述s′为与所述环境状态s对应的后继状态;所述a为所述移动机器人采用∈-贪婪策略确认执行的动作;所述r为执行所述动作a后环境给予的即时奖励;所述d是任务结束与否的标志。在一些实施方式中,融合路径规划网络由稠密卷积网络和竞争架构融合而成包括如下步骤:在稠密卷积网络的最后输出层应用所述竞争架构。优选地,预设规则为按照50%的概率从两个融合路径规划网络中选择一个作为在线网络,另一个则为目标网络。在一些实施方式中,在线网络和目标网络的角色优选固定不变。在一些实施方式中,两个融合路径规划网络的权重参数都服从标准正态分布N(0,1)。在实际中,在开始训练机器人之前,需要一些能得到环境地图且使经验回放缓冲器中有一定数量的转换信息的时间步,在步骤S1之前完成,其包括如下步骤:移动机器人根据所处的位置信息和SLAM重构的环境地图生成环境状态s;通过环境状态s、后继状态s′以及两个融合路径规划网络生成转换信息,并存储在经验回放存储器中。即时定位与地图构建(simultaneouslocalizationandmapping,简称SLAM)用于解决移动机器人在未知环境中从一个未知位置开始移动,在移动过程中根据位置估计和地图进本文档来自技高网...

【技术保护点】
1.一种融合稠密卷积网络和竞争架构的路径规划方法,其特征在于,该融合稠密卷积网络和竞争架构的路径规划方法包括:步骤S1:移动机器人从经验回放存储器中采样mini‑batch个转换信息(s,a,r,s′,d),按照预设规则从两个融合路径规划网络中选择一个作为在线网络,另一个则作为目标网络;所述融合路径规划网络由稠密卷积网络和竞争架构融合而成;其中,所述mini‑batch为每个时间步上用来更新的采样经验的个数;所述s为当前的环境状态;所述s′为与所述环境状态s对应的后继状态;所述a为所述移动机器人采用∈‑贪婪策略确认执行的动作;所述r为执行所述动作a后环境给予的即时奖励;所述d是任务结束与否的标志;步骤S2:根据所述环境状态s和所述在线网络获取预测的在线动作值函数Q(s,a;w),所述预测的在线动作值函数Q(s,a;w)为在所述环境状态s下所有可能动作a的预测动作函数值;根据所述后继状态s′和所述在线网络获取贪婪动作a′,所述贪婪动作a′为所述后继状态s′在所述在线网络中预测的动作值函数的最大值maxa′Q(s′,a′,w);所述w为所述在线网络的权重参数;步骤S3:根据所述后继状态s′、所述贪婪动作a′以及所述目标网络获取预测的目标动作值函数的最大值Q(s′,argmaxa′Q(s′,a′,w),w‑),所述w‑为所述目标网络的权重参数;步骤S4:根据所述预测的目标动作值函数的最大值Q(s′,argmaxa′Q(s′,a′,w),w‑)和所述预测的在线动作值函数Q(s,a;w)计算当前时间步上的损失函数:...

【技术特征摘要】
1.一种融合稠密卷积网络和竞争架构的路径规划方法,其特征在于,该融合稠密卷积网络和竞争架构的路径规划方法包括:步骤S1:移动机器人从经验回放存储器中采样mini-batch个转换信息(s,a,r,s′,d),按照预设规则从两个融合路径规划网络中选择一个作为在线网络,另一个则作为目标网络;所述融合路径规划网络由稠密卷积网络和竞争架构融合而成;其中,所述mini-batch为每个时间步上用来更新的采样经验的个数;所述s为当前的环境状态;所述s′为与所述环境状态s对应的后继状态;所述a为所述移动机器人采用∈-贪婪策略确认执行的动作;所述r为执行所述动作a后环境给予的即时奖励;所述d是任务结束与否的标志;步骤S2:根据所述环境状态s和所述在线网络获取预测的在线动作值函数Q(s,a;w),所述预测的在线动作值函数Q(s,a;w)为在所述环境状态s下所有可能动作a的预测动作函数值;根据所述后继状态s′和所述在线网络获取贪婪动作a′,所述贪婪动作a′为所述后继状态s′在所述在线网络中预测的动作值函数的最大值maxa′Q(s′,a′,w);所述w为所述在线网络的权重参数;步骤S3:根据所述后继状态s′、所述贪婪动作a′以及所述目标网络获取预测的目标动作值函数的最大值Q(s′,argmaxa′Q(s′,a′,w),w-),所述w-为所述目标网络的权重参数;步骤S4:根据所述预测的目标动作值函数的最大值Q(s′,argmaxa′Q(s′,a′,w),w-)和所述预测的在线动作值函数Q(s,a;w)计算当前时间步上的损失函数:所述γ为折扣因子,所述为求所述采样的mini-batch个转换信息中转换信息(s,a,r,s′,d)的更新误差的期望值;步骤S5:根据所述损失函数利用随机梯度下降法...

【专利技术属性】
技术研发人员:魏国亮黄颖耿双乐冯汉陈晗赵攀攀
申请(专利权)人:上海理工大学
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1