基于DQN的车间多功能机器人制造技术

技术编号:28417467 阅读:97 留言:0更新日期:2021-05-11 18:24
本发明专利技术涉及机器人控制技术领域,具体为一种基于DQN的车间多功能机器人,包括:DQN神经网络模型构建模块,用于根据算法模型构建DQN神经网络模型;训练模块,用于对DQN神经网络模型进行训练;SLAM图像构建模块,用于根据传感器数据生成SLAM图像;环境状态生成模块,用于根据SLAM图像生成状态;可行动作集构建模块,用于将坐标平面划分N个方向,形成可行动作集;控制模块,用于将可行动作集以及SLAM图像数据作为输入,通过DQN神经网络模型输出行为控制决策。本申请的一种基于DQN的车间多功能机器人,能够通过自学习满足多种不同任务需求,解决当前机器人由于应用的场景和任务单一而存在的成本高、收益低的问题。

【技术实现步骤摘要】
基于DQN的车间多功能机器人
本专利技术涉及机器人控制
,具体为一种基于DQN的车间多功能机器人。
技术介绍
随着物联网和互联网技术的发展,智能机器人被广泛的应用于展厅导航、车间管理、自动化生产、仓储管理、智能家居等场景中。一般车间机器人或者智能机械,应用场景以及功能比较单一,只能完成特定场景的某一部分工作,当用于其它任务或者不同的场景时,则无法胜任工作,虽然可以大大的减少人工工作量,但是对于对产品越来越多元化需求的今天,引入只能完成单一任务的设备或机器人存在造价高、收益低的问题。以机器人的移动为例,移动控制和路径规划是机器人工作运行的基础,现有的车间机器人,通常采用固定线路或场景内设置标记识别等方式,来控制智能车的移动和路径,无法在不同场景不同任务下完成工作,存在应用成本高、收益低的问题。
技术实现思路
本专利技术意在提供一种基于DQN的车间多功能机器人,能够通过自学习满足多种不同任务需求,解决当前机器人由于应用的场景和任务单一而存在的成本高、收益低的问题。本申请提供如下技术方案:一种基于DQN的车间多功能机器人,包括:DQN神经网络模型构建模块,用于根据以下算法模型构建DQN神经网络模型:Q(st,at)←Q(st,at)+α[Rt+γQ(st’,at’)-Q(st,at)]其中,γ表示折扣因子,α表示学习率,Rt表示积累回报值,st表示在当前时间t的状态;训练模块,用于对DQN神经网络模型进行训练;SLAM图像构建模块,用于根据传感器数据生成SLAM图像;环境状态生成模块,用于根据SLAM图像生成状态;可行动作集构建模块,用于将坐标平面划分N个方向,形成可行动作集;控制模块,用于将可行动作集以及SLAM图像数据作为输入,通过DQN神经网络模型输出行为控制决策。进一步,所述N为64。进一步,所述DQN神经网络模型包括两个卷积层,所述两个卷积层的步长均为3,还包括两个全连接层,第一层全连接层设有256个节点,第二层全连接层设有8个节点。进一步,所述Rt按照以下公式计算:其中,rt表示在当前时间t,状态s下采取行动a之后的回报值。进一步,rt定义如下:当机器人朝向目的地运动且无碰撞时,取值为5;当机器人与目的地反向时或当机器人与周围障碍物相碰撞时取值-5;其它情况时取值为0。进一步,所述训练模块采用随机梯度下降法来最小化损失函数来不断调整网络权重。进一步,所述训练模块采用的损失函数定义如下:Li(θi)=E[(TargetQ-Q(s,a;θi))2]其中,表示第i次迭代的目标网络参数,θi则时Q-network网络参数。进一步,所述SLAM图像构建模块包括RPLIDAR数据获取模块、RGBD数据获取模块以及数据融合模块,所述RPLIDAR数据获取模块用于获取环境一维构图数据,素数RGBD数据获取模块用于获取环境二维构图数据,所述数据融合模块用于根据环境一维构图数据和环境二维构图数据生成环境空间的SLAM图像。进一步,RPLIDAR数据获取模块获取环境一维沟通数据时加入随机高斯噪声。可以防止过拟合使数据失真,使得到的数据更契合实际情况。本专利技术技术方案的有益效果为:本专利技术技术方案中,使用DQN理论使得机器人不仅具有自我学习功能,进而更加智能化,可以适用不同的应用场景,完成不同的任务。DQN中引入的经验池在训练网络时可以极大的降低样本之间的相关性问题,通过保留过去的经验,可以防止神经网络仅根据其最新动作进行学习,并鼓励其从各种随机的过去经验中学习,提升决策准确度。将DQN分为用于训练和更新权重的网络以及用于计算目标Q值的目标网络,可以解决非平衡问题;本专利技术技术方案,在多种不同场景下,都能实现其从起点到终点的自我循迹功能,可以满足多种搬运功能需求,解决当前机器人由于可以应用的场景和任务单一而存在的成本高、收益低的问题。附图说明图1为本申请基于DQN的车间多功能机器人实施例中的控制模型结构图;图2为本申请基于DQN的车间多功能机器人实施例中的训练流程图。图3为本申请基于DQN的车间多功能机器人实施例中的简单模拟场景示意图。图4为本申请基于DQN的车间多功能机器人实施例中的复杂模拟场景示意图。图5为本申请基于DQN的车间多功能机器人实施例中简单模拟环境下的回报值变化曲线图。图6为本申请基于DQN的车间多功能机器人实施例中复杂模拟环境下的回报值变化曲线图。图7为本申请基于DQN的车间多功能机器人实施例中简单模拟环境下的迭代步速变化曲线图。图8为本申请基于DQN的车间多功能机器人实施例中复杂模拟环境下的迭代步速变化曲线图。具体实施方式下面通过具体实施方式对本申请技术方案进行进一步详细说明:实施例一如图1所示,本实施例公开的一种基于DQN的车间多功能机器人,包括:DQN神经网络模型构建模块,用于根据以下算法模型构建DQN神经网络模型:Q(st,at)←Q(st,at)+α[Rt+γQ(st’,at’)-Q(st,at)]其中,γ表示折扣因子,α表示学习率,Rt表示积累回报值,st表示在当前时间t的状态;本实施例中,DQN神经网络模型包括两个卷积层,两个卷积层的步长均为3,还包括两个全连接层,第一层全连接层设有256个节点,第二层全连接层设有8个节点。本实施例中,Rt按照以下公式计算:其中,rt表示在当前时间t,状态s下采取行动a之后的回报值。rt定义如下:当机器人朝向目的地运动且无碰撞时,取值为5;当机器人与目的地反向时或当机器人与周围障碍物相碰撞时取值-5;其它情况时取值为0。训练模块,用于对DQN神经网络模型进行训练;SLAM图像构建模块,用于根据传感器数据生成SLAM图像;环境状态生成模块,用于根据SLAM图像生成状态;本实施例中,SLAM图像构建模块包括RPLIDAR数据获取模块、RGBD数据获取模块以及数据融合模块,RPLIDAR数据获取模块用于获取环境一维构图数据,RPLIDAR数据获取模块获取环境一维沟通数据时加入随机高斯噪声。素数RGBD数据获取模块用于获取环境二维构图数据,数据融合模块用于根据环境一维构图数据和环境二维构图数据生成环境空间的SLAM图像。可行动作集构建模块,用于将坐标平面划分N个方向,形成可行动作集;本实施中,N优选为64。控制模块,用于将可行动作集以及SLAM图像数据作为输入,通过DQN神经网络模型输出行为控制决策。如图2所示,训练模块采用随机梯度下降法来最小化损失函数来不断调整网络权重,训练模块采用的损失函数定义如下:Li(θi)=E[(TargetQ-Q(s,a;θi))2]其中,表示第i次迭代的目标网络参数,θi则时Q-network网络参数。本实施例中,使用本文档来自技高网...

【技术保护点】
1.一种基于DQN的车间多功能机器人,其特征在于:包括:/nDQN神经网络模型构建模块,用于根据以下算法模型构建DQN神经网络模型:/nQ(s

【技术特征摘要】
1.一种基于DQN的车间多功能机器人,其特征在于:包括:
DQN神经网络模型构建模块,用于根据以下算法模型构建DQN神经网络模型:
Q(st,at)←Q(st,at)+α[Rt+γQ(st’,at’)-Q(st,at)]
其中,γ表示折扣因子,α表示学习率,Rt表示积累回报值,st表示在当前时间t的状态;
训练模块,用于对DQN神经网络模型进行训练;
SLAM图像构建模块,用于根据传感器数据生成SLAM图像;
环境状态生成模块,用于根据SLAM图像生成状态;
可行动作集构建模块,用于将坐标平面划分N个方向,形成可行动作集;
控制模块,用于将可行动作集以及SLAM图像数据作为输入,通过DQN神经网络模型输出行为控制决策。


2.根据权利要求1所述的基于DQN的车间多功能机器人,其特征在于:所述N为64。


3.根据权利要求2所述的基于DQN的车间多功能机器人,其特征在于:所述DQN神经网络模型包括两个卷积层,所述两个卷积层的步长均为3,还包括两个全连接层,第一层全连接层设有256个节点,第二层全连接层设有8个节点。


4.根据权利要求3所述的基于DQN的车间多功能机器人,其特征在于:所述Rt按照以下公式计算:



其中,rt表示在当前时间t,状态s下采取行动a之后的回报...

【专利技术属性】
技术研发人员:敖邦乾梁定勇敖帮桃令狐金卿
申请(专利权)人:遵义师范学院
类型:发明
国别省市:贵州;52

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1