一种基于深度强化学习的柔性物体展开方法技术

技术编号:28626717 阅读:19 留言:0更新日期:2021-05-28 16:23
本发明专利技术公开了一种基于深度强化学习的柔性物体展开方法。设置训练的智能体,设置柔性物体展开的回报r,将机械臂与柔性物体的距离设置为负回报,距离越近回报值越靠近0;将柔性物体展开好坏设置为正回报,展开的面积越大正回报的值越大。本发明专利技术采用深度强化学习DDPG,基于确定动作策略的Actor‑Critic算法框架,内部期望的求解就被避免,外部期望只需根据环境求期望即可,动作‑状态值函数Q只和环境有关系,可以使用off‑policy来更新值函数。DDPG通过”soft”target updates的方式来保证参数可以缓慢的更新,可以使柔性物体展开和挂进衣架达到好的效果。

【技术实现步骤摘要】
一种基于深度强化学习的柔性物体展开方法
:本专利技术属于深度强化学习
,特别涉及一种基于深度强化学习的柔性物体展开方法。
技术介绍
:柔性物体如衣物在挂进衣架之前需要将衣物展开,衣物展开的好坏直接影响衣物能否挂入衣架。现在的自动挂衣设备在展开衣物时,采用强化学习DQN来实现。强化学习DQN只能处理离散的、低维的动作空间。DQN不能直接处理连续的动作的原因是它依赖于在每一次最优迭代中寻找动作值函数的最大值(表现为在Q神经网络中输出每个动作的值函数),针对连续动作空间DQN没有办法输出每个动作的动作值函数,因此,衣物展开的效果并不好。解决上述连续动作空间问题的一个简单方法是将动作空间离散化,但是动作空间是随着动作的自由度呈指数增长的,所以针对大部分任务来说这个方法是不现实的。公开于该
技术介绍
部分的信息仅仅旨在增加对本专利技术的总体背景的理解,而不应当被视为承认或以任何形式暗示该信息构成已为本领域一般技术人员所公知的现有技术。
技术实现思路
:本专利技术的目的在于提供一种基于深度强化学习的柔性物体展开方法,从而克服上述现有技术中的缺陷。为实现上述目的,本专利技术提供了一种基于深度强化学习的柔性物体展开方法,其步骤为:(1)设置训练的智能体,设置柔性物体展开的回报r,将机械臂与柔性物体的距离设置为负回报,距离越近回报值越靠近0;将柔性物体展开好坏设置为正回报,展开的面积越大正回报的值越大;(2)智能体基于确定动作策略的Actor-Critic构架,包括Current网络、Target网络,Current网络包括Actorμ神经网络、CriticQ神经网络,Target网络包括Actorμ'神经网络、CriticQ'神经网络;(3)Current网络采用“soft”targetupdates的方式更新网络参数值,更新的网络参数值方程为:θ′←τθ+(1-τ)θ′withτ<<1①其中,τ为类似于γ的折扣率,决定了加入Current网络的网络参数的多少,而1-τ为保留Target网络参数的多少,θ’为Target网络的网络参数,θ为Current网络的网络参数;(4)Current网络的Actorμ神经网络直接输出动作策略,CriticQ神经网络负责对输出的策略进行评分;对于Actorμ神经网络的训练,使用梯度上升法使评分最大,梯度上升法公式为:其中,为使用梯度上升法训练出Actorμ神经网络中最好的参数θ,Eμ′为对Actorμ神经网络输出的动作值以及其CriticQ神经网络对该动作的评分值(Q(s,α|θ))的乘积取期望,为对状态为st时Actorμ神经网络输出的动作值与状态为st时CriticQ神经网络对该动作的评分值的乘积分别使用梯度上升法来训练更新网络参数θμ;对于CriticQ神经网络的训练,借助Target网络的Actorμ'神经网络、CriticQ'神经网络,把下一个状态St+1输入到Actorμ神经网络和CriticQ神经网络得到下一个状态的动作策略αt+1以及评分Q,CriticQ神经网络学习方程为:Qμ(st,at)=E[r(st,at)+γQμ(st+1,μ(st+1))]③其中,r(st,αt)函数表示环境在状态st执行行为αt后,返回的回报;γ为折扣率,Qμ(st+1,μ(st+1))函数表示在Actorμ神经网络中状态为st+1时基于动作策略αt+1得到的评分Q,E表示对回报与下一个状态评分的和求期望;根据这个评分Q以及回报r跟当前网络得到的评分Q使用均方差损失函数进行训练,CriticQ神经网络对网络参数θ的更新采用TDerror方式,均方差损失函数的方程为:L(θQ)=Eμ'[(Q(st,at|θQ)-yt)2]④其中,Q(st,at|θQ)为CriticQ神经网络输出的动作策略的评分,yt为目标值,将当前输出的动作策略的评分与yt看齐,从而来训练当前的动作策略的评分;yt的求解为:yt=r(st,at)+γQ(st+1,μ(st+1)|θQ)⑤其中yt也就是式③中回报与下一个状态评分的和;(5)训练完成后的智能体使用时只会用到Actorμ神经网络,输入当前状态S就会输出当前状态S下对应的最好的动作策略A,得到的回报r最大化,将柔性物体展开。优选地,技术方案中,在训练时,会设置一个经验池来存放数据,数据包括状态st,动作αt,回报r,下一个状态st+1,这些数据可以随机取一批来进行训练,来加快训练速度以及解决数据关联性太大的问题。优选地,技术方案中,设置训练的智能体为两个,一个智能体负责将柔性物体展开,一个智能体负责将柔性物体挂在衣架上。优选地,技术方案中,设置柔性物体挂在衣架程度的回报,将衣架分为对称的a、b两边,a边上设置有挂衣程度最好的A点,b边上设置有挂衣程度最好的B点,A点和B点对称设置;对于a边,将柔性物体的一端没有超过衣架的中间时得到的回报作为正回报,且柔性物体越靠近A点得到的正回报值越大,如果柔性物体的一端刚好在衣架的中间则回报值变为0,如果柔性物体的一端超过了衣架的中间则回报值变为负值;对于b边,回报值的变化与a边相同。与现有技术相比,本专利技术具有如下有益效果:采用深度强化学习DDPG,基于确定动作策略的Actor-Critic算法框架,内部期望的求解就被避免,外部期望只需根据环境求期望即可,动作-状态值函数Q只和环境有关系,可以使用off-policy来更新值函数。DDPG通过”soft”targetupdates的方式来保证参数可以缓慢的更新,可以使柔性物体展开和挂进衣架达到好的效果。具体实施方式:下面对本专利技术的具体实施方式进行详细描述,但应当理解本专利技术的保护范围并不受具体实施方式的限制。除非另有其它明确表示,否则在整个说明书和权利要求书中,术语“包括”或其变换如“包含”或“包括有”等等将被理解为包括所陈述的元件或组成部分,而并未排除其它元件或其它组成部分。一种基于深度强化学习的柔性物体展开方法,其步骤为:(1)设置两个训练的智能体,一个智能体负责将柔性物体展开,一个智能体负责将柔性物体挂在衣架上;设置柔性物体展开的回报r1,将机械臂与柔性物体的距离设置为负回报,距离越近回报值越靠近0;将柔性物体展开好坏设置为正回报,展开的面积越大正回报的值越大;设置柔性物体挂在衣架程度的回报r2,将衣架分为对称的a、b两边,a边上设置有挂衣程度最好的A点,b边上设置有挂衣程度最好的B点,A点和B点对称设置;对于a边,将柔性物体的一端没有超过衣架的中间时得到的回报作为正回报,且柔性物体越靠近A点得到的正回报值越大,如果柔性物体的一端刚好在衣架的中间则回报值变为0,如果柔性物体的一端超过了衣架的中间则回报值变为负值;对于b边,回报值的变化与a边相同;(2)智能体基于确定动作策略的Actor-Critic构架,包括Current网络、Target网络,Current网络包括Acto本文档来自技高网...

【技术保护点】
1.一种基于深度强化学习的柔性物体展开方法,其特征在于:步骤为(1)设置训练的智能体,设置柔性物体展开的回报r,将机械臂与柔性物体的距离设置为负回报,距离越近回报值越靠近0;将柔性物体展开好坏设置为正回报,展开的面积越大正回报的值越大;/n(2)智能体基于确定动作策略的Actor-Critic构架,包括Current网络、Target网络,Current网络包括Actorμ神经网络、Critic Q神经网络,Target网络包括Actorμ'神经网络、Critic Q'神经网络;/n(3)Current网络采用“soft”target updates的方式更新网络参数值,更新的网络参数值方程为:/nθ′←τθ+(1-τ)θ′withτ<<1 ①/n其中,τ为类似于γ的折扣率,决定了加入Current网络的网络参数的多少,而1-τ为保留Target网络参数的多少,θ’为Target网络的网络参数,θ为Current网络的网络参数;/n(4)Current网络的Actorμ神经网络直接输出动作策略,Critic Q神经网络负责对输出的策略进行评分;对于Actorμ神经网络的训练,使用梯度上升法使评分最大,梯度上升法公式为:/n...

【技术特征摘要】
1.一种基于深度强化学习的柔性物体展开方法,其特征在于:步骤为(1)设置训练的智能体,设置柔性物体展开的回报r,将机械臂与柔性物体的距离设置为负回报,距离越近回报值越靠近0;将柔性物体展开好坏设置为正回报,展开的面积越大正回报的值越大;
(2)智能体基于确定动作策略的Actor-Critic构架,包括Current网络、Target网络,Current网络包括Actorμ神经网络、CriticQ神经网络,Target网络包括Actorμ'神经网络、CriticQ'神经网络;
(3)Current网络采用“soft”targetupdates的方式更新网络参数值,更新的网络参数值方程为:
θ′←τθ+(1-τ)θ′withτ<<1①
其中,τ为类似于γ的折扣率,决定了加入Current网络的网络参数的多少,而1-τ为保留Target网络参数的多少,θ’为Target网络的网络参数,θ为Current网络的网络参数;
(4)Current网络的Actorμ神经网络直接输出动作策略,CriticQ神经网络负责对输出的策略进行评分;对于Actorμ神经网络的训练,使用梯度上升法使评分最大,梯度上升法公式为:



其中,为使用梯度上升法训练出Actorμ神经网络中最好的参数θ,Eμ′为对Actorμ神经网络输出的动作值以及其CriticQ神经网络对该动作的评分值(Q(s,α|θ))的乘积取期望,为对状态为st时Actorμ神经网络输出的动作值与状态为st时CriticQ神经网络对该动作的评分值的乘积分别使用梯度上升法来训练更新网络参数θμ;
对于CriticQ神经网络的训练,借助Target网络的Actorμ'神经网络、CriticQ'神经网络,把下一个状态St+1输入到Actorμ神经网络和CriticQ神经网络得到下一个状态的动作策略αt+1以及评分Q,CriticQ神经网络学习方程为:
Qμ(st,at)=E[r(st,at)+γQμ(st+1,μ(st+1))]③
其中,r(st,αt)函...

【专利技术属性】
技术研发人员:洪一峰孙葳陈立成陈奔
申请(专利权)人:江苏丰华联合科技有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1