一种应用于大批量重复性加工的工业机器人学习方法技术

技术编号:19641955 阅读:32 留言:0更新日期:2018-12-05 18:17
本发明专利技术提供了一种应用于大批量重复性加工的工业机器人学习方法,其特征在于:该学习方法是基于学习模型进行学习,其包括如下步骤:S001、传感器采集状态信息;S002、根据采集的信息进行学习;S003、判断加工质量以及加工周期是否达到要求,若达到要求则结束学习,否则重新采集状态信息重新学习。本发明专利技术的方法根据传感器数据去学习并改进控制策略,达到在高速下的良好控制,能够简化机器人调试工作,并可实现在大批量、规模化的重复性加工中应用,并解决机器人在传统的学习方式中缺乏精确动力学模型造成的高速工作下的震荡,提高工业机器人的工作效率。

A Learning Method for Industrial Robots Applied to Mass Repetitive Processing

The invention provides an industrial robot learning method for large-scale repetitive processing. Its characteristics are as follows: the learning method is based on learning model, which includes the following steps: S001, sensor acquisition status information; S002, learning according to collected information; S003, judging processing quality and adding. Whether the work cycle meets the requirement or not, if it meets the requirement, the study will be finished, otherwise the status information will be collected and re-learned. The method of the invention learns and improves the control strategy according to the sensor data, achieves good control at high speed, simplifies the debugging work of the robot, realizes the application in large-scale repetitive processing, and solves the high speed caused by the lack of accurate dynamic model in the traditional learning mode of the robot. The oscillation under work improves the working efficiency of industrial robots.

【技术实现步骤摘要】
一种应用于大批量重复性加工的工业机器人学习方法
本专利技术涉及工业机器人
,尤其涉及一种应用于大批量重复性加工的工业机器人学习方法。
技术介绍
工业机器人是一种具有高度非线性的系统,其动态特性的准确建模难以实现。以往的机器人通常只考虑运动学而不考虑动力学模型。在只使用动力学模型时,一方面通常将每个点最大的速度和加速度设置得低于实际所能承受的速度和加速度,这是考虑到动态特性时不超出执行器的最大力矩,但这也导致了执行器的性能没有被充分利用。另一方面,未考虑动力学特性不仅影响了工业机器人的工作效率,在机器人高速运动过程以及重负载过程中,由于惯性力,离心力,摩擦力,重力,关节扭矩力的影响,往往会产生强烈的震动,这不仅影响了机器人的加工质量,也影响了机器人的寿命。此外,工业机器人动力学准确建模还存在对机器人参数难以辨识的问题,如果机器人的一致性不好,每个部件的摩擦力系数不一样,导致动力学参数出现错误,而不正确的动力学参数会导致机器人调试工作更加繁琐,也难以实现大批量、规模化的应用。
技术实现思路
针对现有技术中存在的缺陷或不足,本专利技术提供一种应用于大批量重复性加工的工业机器人学习方法,根据传感器数据去学习并改进控制策略,达到在高速下的良好控制,能够简化机器人调试工作,并可实现在大批量、规模化的重复性加工中应用,并解决机器人在传统的学习方式中缺乏精确动力学模型造成的高速工作下的震荡,提高工业机器人的工作效率。为了实现上述目的,本专利技术采取的技术方案为提供一种应用于大批量重复性加工的工业机器人学习方法,该学习方法是基于学习模型进行学习,其包括如下步骤:S001、传感器采集状态信息;S002、根据采集的信息进行学习;S003、判断加工质量以及加工周期是否达到要求,若达到要求则结束学习,否则重新采集状态信息重新学习。作为本专利技术的进一步改进,所述学习模型由环境单元、机器人学习单元和加工执行单元组成;其中,所述环境单元,由加工工件状态测量传感器和机器人状态末端测量观测器组成,所述加工工件状态测量传感器采集所加工工件的视觉信息,所述视觉信息至少包括工件的几何形状和表面光滑度信息;所述机器人状态末端测量观测器采集机器人的位置、速度、加速度以及关节扭矩的信息;所述状态观测单元,所述状态观测单元通过通信线路获取所述环境单元采集的信息,并将获取的信息转化成数据格式;所述数据处理单元,接收并处理所述状态观测单元转化成数据格式的信息;所述数据处理单元包括奖励计算单元和函数更新单元,其中,所述奖励计算单元通过奖励函数设置单元设置即时奖励r,所述奖励计算单元对所述状态观测单元的信息进行计算,计算完成后将结果参数输送至函数更新单元,函数更新单元采用神经网络训练的方式对获取到的参数进行更新,直到得到最终学习参数,将最终学习参数存储起来,通过神经网络做出行为决策,再进行强化学习到一个确定性策略以驱动机器人进行工作。作为本专利技术的进一步改进,所述强化学习通过假设机器人由状态信息到行为定义为策略π,从时刻t开始获得的累积回报定义为:根据累积回报通过求取期望回报;其中,Qπ(st,at)表示依据策略π在状态st下采取行为at时的期望回报;结合累积回报和取期望回报的公式,得到期望回报的递归形式公式:根据递归形式公式不断使用上次更新的策略进行决策。本专利技术中,采用强化学习的方式,强化学习的策略分为确定性策略和不确定策略,本专利技术中采用确定性策略的强化学习方式,即在某一状态下采用输出行为的方式,而不是输出概率的方式,则期望回报Q可通过公式(4)计算:其中,μ代表的是确定的行为。作为本专利技术的进一步改进,所述强化学习采用确定性策略的强化学习方式,其具体过程包括如下步骤:S201,初始化行为网络μ(s|θμ),参数表示为θQ和评价网络Q(s,a|θQ),参数表示为θμ,并初始化目标网络Q′(s,a|θQ′)和μ′(s|θμ′),参数是θQ′←θQ,θμ′←θμ。S202,初始化缓冲容器R;S203,接受状态观测单元的状态信息st;S204,根据当前策略并施加一定的噪声来选择执行行为at;S205,观测得到的奖励rt,并观测下一状态信息st+1;S206,将四元组<st,at,rt,st+1>存在缓冲容器R中;S207,从缓冲容器中随机选取一批四元组样本进行训练;S208,更新评价网络参数;S209,更新行为网络参数;S210,判断学习次数是否超出预设值或加工质量是否足够好;S211,将评价网络和行为网络的参数传输到主机存储,结束学习。作为本专利技术的进一步改进,所述步骤S208中更新评价网络参数时,先将目标函数yt设置为:yt=r(st,at)+γQ(st+1,μ(st+1)|θQ),再通过公式minaL(θQ)=E[(Qst,atθQ-yt)2]计算得到参数来更新评价网络,其中,at表示t时刻的行为,Q表示累积奖励,θQ表示行为网络的参数,E表示多组数据实际奖励和目标之间的误差的平方和的期望值,L(θQ)表示在参数θQ下的误差,μ(st+1)表示在状态st+1下的确定性策略.6.根据权利要求3所述的应用于大批量重复性加工的工业机器人学习方法,其特征在于:所述步骤S209中更新行为网络参数时,使用梯度法来更新行为网络,而更新目标网络时采用如下公式组来更新;θ′←τθ+(1-τ)θ′θQ′←τθQ+(1-τ)θQ′θμ′←τθμ+(1-τ)θμ′withτ<<0.05表示对θμ求导,表示对α求导,表示以θμ为变量,求J的关于θμ的导数。本专利技术的有益效果是:1.本专利技术的方法通过采集加工信息,使用强化学习的方式进行学习,降低机器人调试工作,优化工业机器人的控制策略,包括给定路径下的轨迹规划功能以及给定轨迹下的电机控制策略,解决机器人在传统的学习方式中缺乏精确动力学模型造成的高速工作下的震荡,提高工业机器人的工作效率。2.本学习方法本就是学习在高速工作下的控制策略,根据传感器数据去学习并改进控制策略,达到在高速下的良好控制。附图说明图1是本专利技术的学习模型结构示意图;图2是本专利技术的学习方法流程图;图3是本专利技术的强化学习流程图。具体实施方式下面结合附图说明及具体实施方式对本专利技术进一步说明。本专利技术的学习方法是基于学习模型结构而得到,该学习模型结构也是工业机器人系统;如图1所示,为本专利技术的学习模型结构示意图;该模型由环境单元、机器人学习单元和加工执行单元组成,其中,环境单元至少包括加工质量测量单元,机器人学习单元包括状态观测单元、数据处理单元及决策制定单元,加工执行单元至少包括机器人和定位器。本专利技术的学习模型的各个单元的工作过程是:环境单元,在本实施里中为加工质量测量单元,由加工工件状态测量传感器和机器人状态末端测量观测器组成,加工工件状态测量传感器主要是采集所加工工件的视觉信息,包括工件的几何形状和表面光滑度。机器人状态末端测量观测器也可以为机器人状态末端测量传感器,用于采集机器人的位置、速度、加速度、关节扭矩等信息。状态观测单元,状态观测单元通过通信线路获取加工质量测量单元采集的信息,并将获取的信息转化成数据格式。数据处理单元,接收并处理状态观测单元转化成数据格式的信息;数据处理单元包括奖励计算单元和函数更新单元,其中,奖励计算单元通过奖励函数设置本文档来自技高网...

【技术保护点】
1.一种应用于大批量重复性加工的工业机器人学习方法,其特征在于:该学习方法是基于学习模型进行学习,其包括如下步骤:S001、传感器采集状态信息;S002、根据采集的信息进行学习;S003、判断加工质量以及加工周期是否达到要求,若达到要求则结束学习,否则重新采集状态信息重新学习。

【技术特征摘要】
1.一种应用于大批量重复性加工的工业机器人学习方法,其特征在于:该学习方法是基于学习模型进行学习,其包括如下步骤:S001、传感器采集状态信息;S002、根据采集的信息进行学习;S003、判断加工质量以及加工周期是否达到要求,若达到要求则结束学习,否则重新采集状态信息重新学习。2.根据权利要求1所述的应用于大批量重复性加工的工业机器人学习方法,其特征在于:所述学习模型由环境单元、机器人学习单元和加工执行单元组成;其中,环境单元至少包括加工质量测量单元,机器人学习单元包括状态观测单元、数据处理单元及决策制定单元,加工执行单元至少包括机器人和定位器;所述环境单元,由加工工件状态测量传感器和机器人状态末端测量观测器组成,所述加工工件状态测量传感器采集所加工工件的视觉信息,所述视觉信息至少包括工件的几何形状和表面光滑度信息;所述机器人状态末端测量观测器采集机器人的位置、速度、加速度以及关节扭矩的信息;所述状态观测单元,所述状态观测单元通过通信线路获取所述环境单元采集的信息,并将获取的信息转化成数据格式;所述数据处理单元,接收并处理所述状态观测单元转化成数据格式的信息;所述数据处理单元包括奖励计算单元和函数更新单元,其中,所述奖励计算单元通过奖励函数设置单元设置即时奖励r,所述奖励计算单元对所述状态观测单元的信息进行计算,计算完成后将结果参数输送至函数更新单元,函数更新单元采用神经网络训练的方式对获取到的参数进行更新,直到得到最终学习参数,将最终学习参数存储起来,通过神经网络做出行为决策,再进行强化学习到一个确定性策略以驱动机器人进行工作。3.根据权利要求2所述的应用于大批量重复性加工的工业机器人学习方法,其特征在于:所述强化学习通过假设机器人由状态信息到行为定义为策略π,从时刻t开始获得的累积回报定义为:根据累积回报通过Qπ(st,at)=Eπ[Rt|st,at]求取期望回报;其中,Qπ(st,at)表示依据策略π在状态st下采取行为at时的期望回报;结合累积回报和取期望回报的公式,得到期望回报的递归形式公式:根据递归形式公式不断...

【专利技术属性】
技术研发人员:李建刚钟刚刚吴雨璁
申请(专利权)人:哈尔滨工业大学深圳
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1