一种基于深度强化学习的黄桃挖核机器人行为控制方法技术

技术编号:17780395 阅读:56 留言:0更新日期:2018-04-22 09:15
本发明专利技术属于计算机应用及人工智能技术领域,涉及一种基于深度强化学习的黄桃挖核机器人行为控制策略。针对传统的机械控制方法难以有效的对黄桃挖核机器人进行行为控制问题,本发明专利技术提出了一种基于深度强化学习的方法对具有视觉功能的黄桃挖核机器人进行行为控制,以期提高其工作性能。本发明专利技术发挥了深度学习的感知能力和强化学习的决策能力,使机器人能够利用深度学习识别桃核状态,进而,通过强化学习的方法指导单片机控制电机挖除桃核,以最终完成挖核任务。本发明专利技术对于利用机器代替人工劳力的挖核任务具有优势。

【技术实现步骤摘要】
一种基于深度强化学习的黄桃挖核机器人行为控制方法
本专利技术属于计算机应用及人工智能
,涉及一种基于深度强化学习的黄桃挖核机器人行为控制方法。
技术介绍
随着社会的发展和技术的进步,劳动力短缺以及劳动力价格的不断攀升等社会问题的出现,极大的促进了工业机器人的研究、应用与普及。近年来,工业机器人的研究和应用一直是科学研究和社会关注的热点之一。但由于工业机器人要求较高的灵巧性、较高的稳定性、较高的环境容忍度等技术因素,一直困扰着工业机器人的研发和应用。早期的工业机器人是机电一体化的产物,而随着市场对工业机器人性能的要求不断提高,使得计算机技术、图像识别技术等更高层次的技术不断的融入到工业机器人中,从而提高工业机器人的性能。具有视觉功能的工业机器人可以完成普通工业机器人难以完成的复杂工作,对于代替劳动力极具优势。目前带有视觉功能的工业机器人还不是非常普遍,工业机器人一般是通过开环的机械臂、机械手等一系列机械结构,模拟人的动作,来代替劳动力工作,实现社会生产。工业机器人的工作过程一般是采集信息、处理信息、执行动作、反馈信息等步骤。其中,采集信息、反馈信息主要依靠传感器,在特殊的环境下,视觉传感器便显得格外重要。甚至某些工作离开了摄像头就没法实现。我国的工业机器人研发主要是由中科院沈阳自动化研究所、哈尔滨工业大学、清华大学、上海交通大学等机构和高校为主,并成立了相关的工业机器人研究基地,已经取得了令人瞩目的成绩。如哈工大研究所研发的码垛机器人,已经取得了非常好的效果,并已投产使用。哈工大机器人集团还研制了其他领域的工业机器人,都取得了非常好的成绩。沈阳新松自动化有限公司研发的通用工业机器人,打破了许多国际垄断技术和技术封锁,代替了大量的进口工业机器人,许多技术填补了我国的多项空白。许多产品成为美国知名企业的重点采购对象。常州铭赛机器人科技有限公司研发的基于机器视觉的点焊机器人,也取得了显著的成绩。目前也大量应用于电路板焊制等工作上,制作电路板的精度非常高,质量远远超过人工制作的电路板,产生了非常大的经济效益和社会效益。国际上,日本的著名学者S.Murakami研究设计了一款基于机器视觉的焊接机器人,它的原理是采用图像识别技术进行识别,并使用神经网络算法对处理过的图像进行识别,并识别得到要焊接的形状,从而可以有效地进行跟踪焊接,大大提高了焊接的精准度。澳大利亚的西部大学研发了一款工业机器人,机器人具有六自由度,它的原理是使用多目摄像头进行空间定位,通过摄像头数据进行3D重建,生成空间坐标,得到景深数据,并目标物进行图像识别,得到目标物具体的位置,可以进行汽车的装配等工作,其精确度非常高。此工业机器人甚至根据不间断的拍照计算的空间坐标系得出机器人目前的位置。目前许多国际大公司都使用工业机器人进行装配,尤其是许多汽车生产公司。可以通过多目摄像头进行三维空间生成和模式识别,从而可以进行密封的汽车装配。瑞士的SIG公司研发了一种基于机器视觉的能够在传送带自动分拣货物的机器人,可以适应高速状态,实现快速的分拣。其可以通过图像进行定位,可以取下传送带上的随机物品,同时并摆放到指定的位置。尽管如此,我国在许多劳动密集型领域中工业机器人仍是起步状体,需要更多的工业机器人投入到市场,以解决我国目前劳动力紧缺和劳动力价格攀升的现状。目前黄桃罐头加工厂的黄桃挖核环节都是人工挖核,市场上已有机器的挖核效果远远低于人工挖核水平。另外,国外的一个自动化生产设备昂贵,并且不能适应国内的黄桃品种,而且挖核的质量远不及人工,这种机器加工的黄桃只能适用于中低端市场,无法适用于高端市场。所以工厂是都是采用人工去核。由于食品制作对卫生要求很高,工人必须穿着包裹整个身体的工作服、工作靴和佩戴帽子和口罩,而黄桃罐头的产季集中在七、八月份,天气酷热,使得工人承受心理和生理的考验,导致罐头厂招人非常困难。另外,人工挖核的质量随个体差异具有优劣,不能完全保证挖核的品质。用于挖核的机器人由于黄桃的桃核形状不一,很难用传统的机械控制方法进行挖核的行为策略控制。深度强化学习以深度学习做感知,强化学习训练策略,并且以深度神经网络作为策略载体。相比于传统的多模块组合,深度强化学习实现了从感知到控制的端到端直接训练,减少了模块间信息损失(MichaelL.Littman.Reinforcementlearningimprovesbehaviourfromevaluativefeedback[J].Nature,2015,521(7553):445-451.)。近两年,GoogleDeepMind团队在连续性动作控制,异步训练,分布式训练等都有重要突破,为智能机器人的研发奠定理论和实践基础(VMnih,KKavukcuoglu,DSilver,AARusu,JVeness.Human-levelcontrolthroughdeepreinforcementlearning[J].Nature,2015,518(7540):529.)。在特定任务的应用上,深度增强学习已有广泛实践尝试,例如流水线机器人。本专利基于深度强化学习研究具有视觉功能的黄桃挖核机器人的行为控制策略,以期提高其工作性能。深度学习具有很强的表示能力,使用方便,但其决策能力却不是很好;强化学习具有很好的决策能力,但很难处理状态空间和动作空间巨大的情形,本专利将深度学习与强化学习结合在一起,充分发挥深度学习的感知能力和强化学习的决策能力,使机器人能够利用深度学习识别的桃核状态根据强化学习获得的策略矩阵指导单片机控制电机挖除桃核,最终完成任务。
技术实现思路
针对传统的机械控制方法难以有效的对黄桃挖核机器人进行行为策略控制,本专利技术提出了一种基于深度强化学习研究具有视觉功能的黄桃挖核机器人的行为控制策略,以期提高其工作性能。在机器人硬件方面,搭建的挖核机器人主要使用了工控机和stm32单片机,工控机和单片机分工协同工作,工控机的作用主要是获取图像、处理图像、执行算法,单片机的作用主要是直接控制电机,二者通过USB接口进行通信。在控制算法方面,本专利通过深度学习实现黄桃挖核机器人桃核状态识别的工作,通过强化学习实现行为策略的控制。在应用上,工控机作为处理器,搭建caffe和matlab平台,caffe将图像处理后的状态数据通过接口传递给matlab,matlab再根据训练好的策略矩阵选择最优动作,并将动作数据通过usb接口传送给stm32单片机,由单片机控制电机执行动作。本专利技术的技术方案:一种基于深度强化学习的黄桃挖核机器人行为控制方法,步骤如下:(1)特征提取首先利用深度学习方法进行特征提取,建立训练集和测试集;其中,使用10000张黄桃剖面图片作为训练集,分为360个类别,每个类别相差1°转角,测试集中包含500张桃核图片;训练集和测试集的图片均具有标签的;使用具有5层的卷积神经网络对训练集的核桃状态进行特征提取;(2)构建桃核图像的分类器采用softmax分类器对黄桃剖面图片进行分类,由于黄桃剖面图片分为360个类,因为分类的输出为360维的向量;首先确定分类器基本的决策规则,然后确定用来划分类别的阈值;用已知的黄桃剖面图片来训练分类器,已知的训练集是由已经被标记过的对象组成,提取这些对象的特征,然后本文档来自技高网
...
一种基于深度强化学习的黄桃挖核机器人行为控制方法

【技术保护点】
一种基于深度强化学习的黄桃挖核机器人行为控制方法,步骤如下:(1)特征提取首先利用深度学习方法进行特征提取,建立训练集和测试集;其中,使用10000张黄桃剖面图片作为训练集,分为360个类别,每个类别相差1°转角,测试集中包含500张桃核图片;训练集和测试集的图片均具有标签的;使用具有5层的卷积神经网络对训练集的核桃状态进行特征提取;(2)构建桃核图像的分类器采用softmax分类器对黄桃剖面图片进行分类,由于黄桃剖面图片分为360个类,因为分类的输出为360维的向量;首先确定分类器基本的决策规则,然后确定用来划分类别的阈值;用已知的黄桃剖面图片来训练分类器,已知的训练集是由已经被标记过的对象组成,提取这些对象的特征,然后利用分类器的决策面把特征向量划分成不同的区域,最终获得输入桃核图像的类别;具体地,把标准的人工挖核的桃核核尖的指向作为标准值,把摄像机实际获取的图像的桃核核尖指向偏离标准值的角度每一度分为1个类,有360个类,即类别数k=360;softmax分类器函数hθ(x)形式如公式(1)所示:

【技术特征摘要】
1.一种基于深度强化学习的黄桃挖核机器人行为控制方法,步骤如下:(1)特征提取首先利用深度学习方法进行特征提取,建立训练集和测试集;其中,使用10000张黄桃剖面图片作为训练集,分为360个类别,每个类别相差1°转角,测试集中包含500张桃核图片;训练集和测试集的图片均具有标签的;使用具有5层的卷积神经网络对训练集的核桃状态进行特征提取;(2)构建桃核图像的分类器采用softmax分类器对黄桃剖面图片进行分类,由于黄桃剖面图片分为360个类,因为分类的输出为360维的向量;首先确定分类器基本的决策规则,然后确定用来划分类别的阈值;用已知的黄桃剖面图片来训练分类器,已知的训练集是由已经被标记过的对象组成,提取这些对象的特征,然后利用分类器的决策面把特征向量划分成不同的区域,最终获得输入桃核图像的类别;具体地,把标准的人工挖核的桃核核尖的指向作为标准值,把摄像机实际获取的图像的桃核核尖指向偏离标准值的角度每一度分为1个类,有360个类,即类别数k=360;softmax分类器函数hθ(x)形式如公式(1)所示:其中,θ1,θ2,…,θk是模型的参数,x(i)是第i个输入样本,y(i)是第i个输入样本对应的类别,这一项是对概率分布进行归一化,使得所有的概率之和为1;(3)建立强化学习的动作集搭建的黄桃挖核机器人为6轴机器人,由6个伺服电机协同工作,完成黄桃的挖核工作,6个伺服电机的布置位置分别为:旋转底盘布置1个伺服电机、摩擦轮机构布置2个伺服电机、刀具机构布置2个伺服电机、下料机构布置1个伺服电机;将伺服电机旋转一周视为360个动作,即每一整数角度都为一...

【专利技术属性】
技术研发人员:葛宏伟林娇娇孙亮赵明德
申请(专利权)人:大连理工大学
类型:发明
国别省市:辽宁,21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1