机器学习装置、机器人控制系统和机器学习方法制造方法及图纸

技术编号:20026739 阅读:21 留言:0更新日期:2019-01-06 05:28
本发明专利技术提供一种用于进行使用了机器人的缺陷检查的机器学习装置、机器人控制系统以及机器学习方法。机器学习装置具有:状态信息取得部,其从机器人控制检查系统取得包含缺陷检测信息、机器人机械手的移动路径和工件的拍摄点、照相机的拍摄次数在内的状态信息s,机器人控制检查系统使机器人机械手把持工件或者照相机来进行工件的缺陷检查,缺陷检测信息包含工件的缺陷检测部位;行为信息输出部,其输出状态s的调整信息即行为a;回报计算部,其根据包含缺陷检测部位的缺陷检测信息,计算强化学习中的回报值;价值函数更新部,其根据由回报计算部计算出的回报值、状态s、行为a来进行强化学习,由此更新行为价值函数Q。

【技术实现步骤摘要】
机器学习装置、机器人控制系统和机器学习方法
本专利技术涉及机器学习装置、机器人控制系统和机器学习方法。
技术介绍
例如专利文献1所记载那样,以往是使机器人把持工件和照相机来进行工件的缺陷检查。例如,像专利文献1所记载那样,首先,作为准备作业,对与机器人连接的动作处理部执行用于存储检查路径和多个拍摄地点的教学步骤(teachingstep)。在这样的教学步骤中示教了登记多个拍摄点、设置于机器人末端的CCD照相机在各拍摄点处检查拍摄点处的基于照明单元的反射光、将检测出的光学信息作为脉冲信息来进行输出,由此,检查路径和多个拍摄点作为动作程序而被存储在与机器人连接的动作处理部的教学部中。这样,在使用了机器人的缺陷检查中,需要示教机器人的位置,指定工件的拍摄部位。作为拍摄部位的指定方法,有在想要检查的范围内均等地进行拍摄的方法,但是当仔细检查整个范围时,存在以下两点问题。第一,由于在缺陷检查中微小的缺陷也不会忽略,因此多是在提升了照相机分辨能力的状态下进行检查,多是缩小视野大小来实施检查。因此,一次拍摄下可以检查的范围狭小,需要以狭小的间隔来重复拍摄。第二,缺陷的拍照方法因照相机/工件/照明的位置关系不同而不同,有可能因它们的位置关系而忽略缺陷。因此,为了减少缺陷的忽略,需要在各部位一边改变照相机/工件/照明的位置关系一边进行拍摄。现有技术文献专利文献1:日本特开2009-014357号公报这样,在使用了机器人的缺陷检查中,为了使微小的缺陷也不会被忽略,在指定工件的拍摄部位时,要决定拍摄点(拍摄部位)使得能精细地拍摄整个被检查面,并且要考虑照相机/照明与工件的位置关系有关的缺陷的拍照方法,因此,需要以在同一部位使工件的方向不同(即,照明的方向不同)的方式示教多个机器人位置。与之相对地,很多时候由于工件的加工条件等原因,导致在哪个部位产生缺陷(缺陷的产生部位)、产生何种形状(特征)的缺陷(缺陷的种类)等存在某种趋势。由于工件的部位不同,导致容易带缺陷程度不同、功能上/外观上要求的检查精度不同。因此,例如在由人进行检查时,能够通过积累经验,谨慎观察应该注意的部位,对不怎么产生不良的部位一扫而过。即便是使用了机器人的缺陷检查,也与人进行检查的情况一样,希望对缺陷产生可能性高的部位谨慎检查、对缺陷产生频率小的部位简单检查,由此,使拍摄张数、拍摄部位最佳化,缩短检查的周期时间。
技术实现思路
本专利技术是鉴于以上课题而完成的,其目的在于提供一种机器学习装置、机器人控制系统和机器学习方法,在使用了机器人的缺陷检查中,对缺陷产生可能性高的部位谨慎检查、对缺陷产生频率小的部位简单检查,由此,使拍摄张数、拍摄部位最佳化,缩短检查的周期时间。(1)本专利技术涉及一种机器学习装置(例如,后述的机器学习装置10),其针对机器人控制系统(例如,后述的机器人控制检查系统20)进行强化学习,该机器人控制系统具有:照明单元(例如,后述的照明220),其对被检查物(例如,后述的工件50)的被检查面照射照明光;拍摄单元(例如,后述的照相机210),其拍摄所述被检查面;机器人(例如,后述的机器人200),其具有机器人机械手(例如,后述的机器人机械手201);控制部(例如,后述的控制装置300),其一边使把持所述被检查物或者所述拍摄单元的所述机器人机械手沿着拍摄包含设定于所述被检查面上的多个拍摄点的拍摄区域的移动路径进行移动,使得由所述拍摄单元拍摄的多个图像包罗所述被检查面,一边使所述拍摄单元在设定于所述被检查面上的所述拍摄点进行拍摄;以及缺陷检查部(例如,后述的缺陷检查装置400),其在所述拍摄点根据由所述拍摄单元拍摄了所述被检查面而得的图像,来检测所述被检查面上的缺陷,其中,所述机器学习装置具有:行为信息输出部(例如,后述的行为信息输出部130),其对所述控制部输出包含拍摄区域的调整信息的行为信息,该拍摄区域包含所述拍摄点;状态信息取得部(例如,后述的状态信息取得部110),针对预先准备的多个被检查物中的每一个被检查物,所述控制部根据所述行为信息使把持所述被检查物或者所述拍摄单元的所述机器人机械手进行移动,所述状态信息取得部根据由所述拍摄单元拍摄了所述被检查面而得的图像,从所述控制部和所述缺陷检查部取得包含缺陷检测信息和拍摄次数在内的状态信息,所述缺陷检测信息含有由所述缺陷检查部检测出的所述被检查面的缺陷检测部位;回报输出部(例如,后述的回报计算部121),其根据在所述状态信息中包含的含有所述缺陷检测部位的缺陷检测信息和所述拍摄次数,输出强化学习中的回报值;以及价值函数更新部(例如,后述的价值函数更新部122),其根据所述回报值、所述状态信息、所述行为信息来更新行为价值函数。(2)在(1)所述的机器学习装置中,可以是,在由所述缺陷检查部检测出的缺陷检测部位的个数与拍摄了包含规定拍摄点的拍摄区域的机器学习开始时的初始状态下由所述缺陷检查部检测出的缺陷检测部位的个数一致时,且所述拍摄次数比所述机器学习开始时的初始状态下的所述拍摄次数少时,所述回报输出部使所述回报值为正值,在由所述缺陷检查部检测出的缺陷检测部位的个数比拍摄了包含所述规定拍摄点的拍摄区域的机器学习开始时的初始状态下由所述缺陷检查部检测出的缺陷检测部位的个数少时,所述回报输出部使所述回报值为负值。(3)在(2)所述的机器学习装置中,可以是,在由所述缺陷检查部检测出的缺陷检测部位的个数与拍摄了包含所述规定拍摄点的拍摄区域的机器学习开始时的初始状态下由所述缺陷检查部检测出的缺陷检测部位的个数一致时,所述拍摄次数比所述机器学习开始时的初始状态下的所述拍摄次数越少,所述回报输出部使所述回报值越大。(4)在(2)或(3)所述的机器学习装置中,可以是,所述机器学习装置具有:最佳化行为信息输出部,其根据由所述价值函数更新部更新后的所述行为价值函数,生成所述拍摄次数为最小的最佳化行为信息,该最佳化行为信息是所述缺陷检测部位的个数与所述机器学习开始时的初始状态下由所述缺陷检查部检测出的缺陷检测部位的个数一致的行为信息。(5)在(1)所述的机器学习装置中,可以是,在由所述缺陷检查部检测出的、所述被检查面的规定区域中缺陷检测部位的个数与拍摄了包含规定拍摄点的拍摄区域的机器学习开始时的初始状态下由所述缺陷检查部检测出的、所述被检查面的规定区域中缺陷检测部位的个数一致时,在拍摄次数比所述机器学习开始时的初始状态下的拍摄次数少时,所述回报输出部使所述回报值为正值,在由所述缺陷检查部检测出的、所述被检查面的规定区域中缺陷检测部位的个数比拍摄了包含所述规定拍摄点的拍摄区域的机器学习开始时的初始状态下由所述缺陷检查部检测出的、所述被检查面的规定区域中缺陷检测部位的个数少时,所述回报输出部使所述回报值为负值。(6)在(5)所述的机器学习装置中,可以是,在由所述缺陷检查部检测出的、所述被检查面的规定区域中缺陷检测部位的个数与拍摄了包含所述规定拍摄点的拍摄区域的机器学习开始时的初始状态下由所述缺陷检查部检测出的、所述被检查面的规定区域中缺陷检测部位的个数一致时,所述拍摄次数比所述机器学习开始时的初始状态下的所述拍摄次数越少,所述回报输出部使所述回报值越大。(7)在(5)或(6)所述的机器学习装置中,可以是,所述机器学习装置具有:最本文档来自技高网
...

【技术保护点】
1.一种机器学习装置,其针对机器人控制系统进行强化学习,该机器人控制系统具有:照明单元,其对被检查物的被检查面照射照明光;拍摄单元,其拍摄所述被检查面;机器人,其具有机器人机械手;控制部,其一边使把持所述被检查物或者所述拍摄单元的所述机器人机械手沿着拍摄包含设定于所述被检查面上的多个拍摄点的拍摄区域的移动路径进行移动,使得由所述拍摄单元拍摄的多个图像包罗所述被检查面,一边使所述拍摄单元在设定于所述被检查面上的所述拍摄点进行拍摄;以及缺陷检查部,其在所述拍摄点根据由所述拍摄单元拍摄了所述被检查面而得的图像,来检测所述被检查面上的缺陷,其特征在于,所述机器学习装置具有:行为信息输出部,其对所述控制部输出包含拍摄区域的调整信息的行为信息,该拍摄区域包含所述拍摄点;状态信息取得部,针对预先准备的多个被检查物中的每一个被检查物,所述控制部根据所述行为信息使把持所述被检查物或者所述拍摄单元的所述机器人机械手进行移动,所述状态信息取得部根据由所述拍摄单元拍摄了所述被检查面而得的图像,从所述控制部和所述缺陷检查部取得包含缺陷检测信息和拍摄次数在内的状态信息,所述缺陷检测信息含有由所述缺陷检查部检测出的所述被检查面的缺陷检测部位;回报输出部,其根据在所述状态信息中包含的含有所述缺陷检测部位的缺陷检测信息和所述拍摄次数,输出强化学习中的回报值;以及价值函数更新部,其根据所述回报值、所述状态信息、所述行为信息来更新行为价值函数。...

【技术特征摘要】
2017.06.27 JP 2017-1252851.一种机器学习装置,其针对机器人控制系统进行强化学习,该机器人控制系统具有:照明单元,其对被检查物的被检查面照射照明光;拍摄单元,其拍摄所述被检查面;机器人,其具有机器人机械手;控制部,其一边使把持所述被检查物或者所述拍摄单元的所述机器人机械手沿着拍摄包含设定于所述被检查面上的多个拍摄点的拍摄区域的移动路径进行移动,使得由所述拍摄单元拍摄的多个图像包罗所述被检查面,一边使所述拍摄单元在设定于所述被检查面上的所述拍摄点进行拍摄;以及缺陷检查部,其在所述拍摄点根据由所述拍摄单元拍摄了所述被检查面而得的图像,来检测所述被检查面上的缺陷,其特征在于,所述机器学习装置具有:行为信息输出部,其对所述控制部输出包含拍摄区域的调整信息的行为信息,该拍摄区域包含所述拍摄点;状态信息取得部,针对预先准备的多个被检查物中的每一个被检查物,所述控制部根据所述行为信息使把持所述被检查物或者所述拍摄单元的所述机器人机械手进行移动,所述状态信息取得部根据由所述拍摄单元拍摄了所述被检查面而得的图像,从所述控制部和所述缺陷检查部取得包含缺陷检测信息和拍摄次数在内的状态信息,所述缺陷检测信息含有由所述缺陷检查部检测出的所述被检查面的缺陷检测部位;回报输出部,其根据在所述状态信息中包含的含有所述缺陷检测部位的缺陷检测信息和所述拍摄次数,输出强化学习中的回报值;以及价值函数更新部,其根据所述回报值、所述状态信息、所述行为信息来更新行为价值函数。2.根据权利要求1所述的机器学习装置,其特征在于,在由所述缺陷检查部检测出的缺陷检测部位的个数与拍摄了包含规定拍摄点的拍摄区域的机器学习开始时的初始状态下由所述缺陷检查部检测出的缺陷检测部位的个数一致时,且所述拍摄次数比所述机器学习开始时的初始状态下的所述拍摄次数少时,所述回报输出部使所述回报值为正值,在由所述缺陷检查部检测出的缺陷检测部位的个数比拍摄了包含所述规定拍摄点的拍摄区域的机器学习开始时的初始状态下由所述缺陷检查部检测出的缺陷检测部位的个数少时,所述回报输出部使所述回报值为负值。3.根据权利要求2所述的机器学习装置,其特征在于,在由所述缺陷检查部检测出的缺陷检测部位的个数与拍摄了包含所述规定拍摄点的拍摄区域的机器学习开始时的初始状态下由所述缺陷检查部检测出的缺陷检测部位的个数一致时,所述拍摄次数比所述机器学习开始时的初始状态下的所述拍摄次数越少,所述回报输出部使所述回报值越大。4.根据权利要求2或3所述的机器学习装置,其特征在于,所述机器学习装置具有:最佳化行为信息输出部,其根据由所述价值函数更新部更新后的所述行为价值函数,生成所述拍摄次数为最小的最佳化行为信息,该最佳化行为信息是所述缺陷检测部位的个数与所述机器学习开始时的初始状态下由所述缺陷检查部检测出的缺陷检测部位的个数一致的行为信息。5.根据权利要求1所述的机器学习装置,其特征在于,在由所述缺陷检查部检测出的、所述被检查面的规定区域中缺陷检测部位的个数与拍摄了包含规定拍摄点的拍摄区域的机器学习开始时的初始状态下由所述缺陷检查部检测...

【专利技术属性】
技术研发人员:太田悠介藁科文和高桥广光
申请(专利权)人:发那科株式会社
类型:发明
国别省市:日本,JP

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1