一种基于引导式DQN控制的机械臂控制方法技术

技术编号:24154950 阅读:26 留言:0更新日期:2020-05-15 22:44
本发明专利技术公开了一种基于引导式DQN控制的机械臂控制方法,包括以下步骤:对机械臂控制策略进行马尔科夫建模,1)建立感知环境模型、2)机械臂动作空间设计、3)建立状态模型、4)回报函数设计、5)数据增强方法、6)引导式DQN策略设计和7)机械臂控制程序结构的设计;本发明专利技术设计的基于引导式DQN控制的机械臂控制方法能实现深层次的探索,改进了原始DQN的随机采样策略导致的不稳定性,具有较好的性能,提高机械臂抓取物体的成功率。

A control method of manipulator based on guiding dqn control

【技术实现步骤摘要】
一种基于引导式DQN控制的机械臂控制方法
本专利技术涉及机器人控制
,具体涉及一种基于引导式DQN控制的机械臂控制方法。
技术介绍
众所周知,智能机器人是当前和今后的研究热点。随着对机器人技术研究的不断加深,人们逐渐意识到,机器人技术的本质是感知、决策、行动和交互技术的结合。在研发智能机器人的过程中,人们已经掌握了一些关键性的技术,如多传感器信息处理技术,路径规划技术,导航与定位技术,智能控制以及人机接口技术等。但是,随着人工智能技术的发展,传统智能机器人控制理论存在的不足之处逐渐显现,比如无法精确解析建模的物理对象、无法解决信息不足的病态过程等。实现制造业的自动化必定离不开机器人手臂。传统机器人手臂控制主要是基于单片机、传感器或嵌入式等。对传统机器人手臂进行改造,在传统机器人手臂的基础上加人传感器,使机械手臂其有外部感知功能,类似于人的某种外部功能,其灵活性得到有效提高,但是传感器获得的信息往往与环境误差很大。近年来,深度强化学习迅速成为人工智能领域的重要前沿阵地,基于深度强化学习的算法己经在各个领域取得了突破性进展,尤其是在智能机器人控制领域。深度强化学习可以很好的与周围环境交互,并且不断从以前的经验进行学习,这就克服了机器人手臂不能很好学习的问题。深度学习把从原始输人数据中提取高层特征变成现实,虽然在感知为一面表现十分优秀,但是在决策为一面不尽人意。与此相反,强化学习在决策为一面表现出众,却在感知为一面并无突出能力。所以,将深度学习与强化学习结合起来,构成深度强化学习算法,二者优势互补,就可以给解决复杂系统的感知决策问题提供有效的方法。深度强化学习将深度学习的感知能力和强化学习的决策能力相结合,可以直接根据输人的图像进行控制,是一种更接近人类思维为方式的人工智能方法。结合了卷积神经网络和传统强化学习中的Q学习算法的DQN算法是深度强化领域的开创性工作,它解决了传统智能机器人行为决策时无法感知环境的问题。因此如何在真实环境下利用DQN及其改进算法使机器人直接根据高维感知输入学习到最优策略非常重要。基于引导式DQN机械臂控制策略算法,采用自助抽样的方式,利用多个分流网络来随机化值函数,临时扩展对状态空间的探索范围,实现深层探索。通过这种分布式的深度探索方法,充分保证了智能体对不同策略的探索,产生多样化的样本,使环境的动态信息更好地泛化到位置的状态空间中。
技术实现思路
针对现有技术中存在的问题,本专利技术的目的在于提供一种基于引导式DQN控制的机械臂控制方法。本专利技术解决其技术问题所采用的技术方案是:一种基于引导式DQN控制的机械臂控制方法,包括以下步骤:1)建立感知环境模型:通过相机实时获取机械臂所处环境的状态,从环境中获取所有用于决策的信息,决策选择的动作作为控制信号,作用于环境,同时系统感知环境模型能够实时监测环境的动态变化;2)机械臂动作空间设计:选择利用反馈方式进行机械臂控制的方式,即指定机械臂的空间位置,然后反馈给机械臂系统,由机械臂系统自主计算每个关节点相对移动的角度;3)建立状态模型:采用摄像机拍摄机械臂环境作为状态信息,机械臂系统对采集来的状态图像进行预处理,对于机械臂策略控制系统来说颜色信息属于冗余信息,在预处理的第一步将8位真彩图像转换成灰度图像,转换时给予不同的权重;4)回报函数设计:回报函数,是策略控制的关键问题,必须要考虑最优的控制策略,具有环境通用性,考虑三个影响回报函数的因素:时间因素,距离因素以及环境鲁棒性,考虑时间因素是让机械臂尽可能快的抓取目标物,考虑距离因素是抓取目标物的任务所决定;5)数据增强方法:采用自主采集机制和动作转置机制,先通过VR/AR设备采集小数据集,用该小规模数据集来初始化强化学习算法经验池,对强化学习算法进行预训练,然后使用预训练的模型对机械臂进行策略控制,同时记录控制过程,更新经验池,接着用更新后的经验池训练强化学习算法,以此循环往复;采用动作转置的机制,上一状态和下一状态相互调换,只需改变动作和损失函数;6)引导式DQN策略设计:该算法在通过共享的网络结构处理之后,在线、并行地产生k个头结点,分别代表k个Q值函数的估计值Q1,Q2,...,Qk,并通过各自的TD误差产生的量化值函数不确定性估计的临时扩展,某个动作对应的值函数不确定性越高,探索该动作所带来的回报值也越高,这样能够适应多变的动态环境。7)机械臂控制程序结构的设计:主要是建立有效的控制系统对程序的不同模块以及机器人层的所有子系统进行统筹协调,机械臂控制系统包括主程序与辅助程序两个部分。具体的是,所述步骤2中机械臂动作空间设计采用将机械臂的动作空间进行离散化,不对机械臂进行连续控制,定义不同的运动步长的控制命令,使得机械臂能够以一定步长逼近目标物。具体的是,所述步骤3中的采用摄像机拍摄机械臂环境为8位真彩色图像,其分辨率320x240对于深度Q值网络比较高。具体的是,所述步骤3中的真彩图像转换成灰度图像,灰度化处理后再将图像统一变成84x84大小,将经过预处理后的84x84的灰度图像作为马尔科夫过程中的状态S。具体的是,所述步骤4中的环境鲁棒性,当机械臂所处环境发生较大的改变,所设计的回报函数依然适用。具体的是,所述步骤7中的主程序包含深度强化学习算法模块、通信模块以及采样数据处理模块,辅助程序为主程序与机器人层之间的桥梁并在实验中独立于主程序运行。本专利技术具有以下有益效果:本专利技术设计的基于引导式DQN控制的机械臂控制方法能实现深层次的探索,改进了原始DQN的随机采样策略导致的不稳定性,具有较好的性能,提高机械臂抓取物体的成功率。附图说明图1是机械臂控制系统架构框图。图2是机械臂控制平台通信方式框图。图3是引导式DQN模型结构示意图。图4是机械臂控制程序结构框图。具体实施方式以下将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地进一步详细的说明。以下对本专利技术实施例中的技术方案进行清楚、完整地进一步详细的说明。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。如图1-4所示,一种基于引导式DQN控制的机械臂控制方法,包括以下步骤:1)建立感知环境模型、2)机械臂动作空间设计、3)建立状态模型、4)回报函数设计、5)数据增强方法、6)引导式DQN策略设计和7)机械臂控制程序结构的设计。1)建立感知环境模型:通过相机实时获取机械臂所处环境的状态,整个实验场景模拟成深度强化学习的环境,从环境中获取所有用于决策的信息,决策选择的动作作为控制信号,作用于环境,同时系统感知环境模型能够实时监测环境的动态变化。2)机械臂动作空间设计:选择利用反馈方式进行机械臂控制的方式,即指定机械臂的空间位置,然后反馈给机械臂系统,由机械臂系统自主计算每个关节点相对移动的角度;同时,将机械臂的动作空间进行离散化,不对机械臂进行本文档来自技高网
...

【技术保护点】
1.一种基于引导式DQN控制的机械臂控制方法,其特征在于,包括以下步骤:/n1)建立感知环境模型:通过相机实时获取机械臂所处环境的状态,从环境中获取所有用于决策的信息,决策选择的动作作为控制信号,作用于环境,同时系统感知环境模型能够实时监测环境的动态变化;/n2)机械臂动作空间设计:选择利用反馈方式进行机械臂控制的方式,即指定机械臂的空间位置,然后反馈给机械臂系统,由机械臂系统自主计算每个关节点相对移动的角度;/n3)建立状态模型:采用摄像机拍摄机械臂环境作为状态信息,机械臂系统对采集来的状态图像进行预处理,对于机械臂策略控制系统来说颜色信息属于冗余信息,在预处理的第一步将8位真彩图像转换成灰度图像,转换时给予不同的权重;/n4)回报函数设计:回报函数,是策略控制的关键问题,必须要考虑最优的控制策略,具有环境通用性,考虑三个影响回报函数的因素:时间因素,距离因素以及环境鲁棒性,考虑时间因素是让机械臂尽可能快的抓取目标物,考虑距离因素是抓取目标物的任务所决定;/n5)数据增强方法:采用自主采集机制和动作转置机制,先通过VR/AR设备采集小数据集,用该小规模数据集来初始化强化学习算法经验池,对强化学习算法进行预训练,然后使用预训练的模型对机械臂进行策略控制,同时记录控制过程,更新经验池,接着用更新后的经验池训练强化学习算法,以此循环往复;采用动作转置的机制,上一状态和下一状态相互调换,只需改变动作和损失函数;/n6)引导式DQN策略设计:该算法在通过共享的网络结构处理之后,在线、并行地产生k个头结点,分别代表k个Q值函数的估计值Q1,Q2,...,Qk,并通过各自的TD误差产生的量化值函数不确定性估计的临时扩展,某个动作对应的值函数不确定性越高,探索该动作所带来的回报值也越高,这样能够适应多变的动态环境。/n7)机械臂控制程序结构的设计:主要是建立有效的控制系统对程序的不同模块以及机器人层的所有子系统进行统筹协调,机械臂控制系统包括主程序与辅助程序两个部分。/n...

【技术特征摘要】
1.一种基于引导式DQN控制的机械臂控制方法,其特征在于,包括以下步骤:
1)建立感知环境模型:通过相机实时获取机械臂所处环境的状态,从环境中获取所有用于决策的信息,决策选择的动作作为控制信号,作用于环境,同时系统感知环境模型能够实时监测环境的动态变化;
2)机械臂动作空间设计:选择利用反馈方式进行机械臂控制的方式,即指定机械臂的空间位置,然后反馈给机械臂系统,由机械臂系统自主计算每个关节点相对移动的角度;
3)建立状态模型:采用摄像机拍摄机械臂环境作为状态信息,机械臂系统对采集来的状态图像进行预处理,对于机械臂策略控制系统来说颜色信息属于冗余信息,在预处理的第一步将8位真彩图像转换成灰度图像,转换时给予不同的权重;
4)回报函数设计:回报函数,是策略控制的关键问题,必须要考虑最优的控制策略,具有环境通用性,考虑三个影响回报函数的因素:时间因素,距离因素以及环境鲁棒性,考虑时间因素是让机械臂尽可能快的抓取目标物,考虑距离因素是抓取目标物的任务所决定;
5)数据增强方法:采用自主采集机制和动作转置机制,先通过VR/AR设备采集小数据集,用该小规模数据集来初始化强化学习算法经验池,对强化学习算法进行预训练,然后使用预训练的模型对机械臂进行策略控制,同时记录控制过程,更新经验池,接着用更新后的经验池训练强化学习算法,以此循环往复;采用动作转置的机制,上一状态和下一状态相互调换,只需改变动作和损失函数;
6)引导式DQN策略设计:该算法在通过共享的网络结构处理之后,在线、并行地产生k个头结点,分别代表k个Q值函数的估计值Q1,Q2,...,Qk,并通过各自的TD...

【专利技术属性】
技术研发人员:张坤之张博张龙李言星孙群陈林林王翀张来刚
申请(专利权)人:聊城鑫泰机床有限公司
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1