一种基于深度强化学习的柔性物体展开方法技术

技术编号：28626717 阅读：19 留言：0更新日期：2021-05-28 16:23

本发明专利技术公开了一种基于深度强化学习的柔性物体展开方法。设置训练的智能体，设置柔性物体展开的回报r，将机械臂与柔性物体的距离设置为负回报，距离越近回报值越靠近0；将柔性物体展开好坏设置为正回报，展开的面积越大正回报的值越大。本发明专利技术采用深度强化学习DDPG，基于确定动作策略的Actor‑Critic算法框架，内部期望的求解就被避免，外部期望只需根据环境求期望即可，动作‑状态值函数Q只和环境有关系，可以使用off‑policy来更新值函数。DDPG通过”soft”target updates的方式来保证参数可以缓慢的更新，可以使柔性物体展开和挂进衣架达到好的效果。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于深度强化学习的柔性物体展开方法
：本专利技术属于深度强化学习
，特别涉及一种基于深度强化学习的柔性物体展开方法。
技术介绍
：柔性物体如衣物在挂进衣架之前需要将衣物展开，衣物展开的好坏直接影响衣物能否挂入衣架。现在的自动挂衣设备在展开衣物时，采用强化学习DQN来实现。强化学习DQN只能处理离散的、低维的动作空间。DQN不能直接处理连续的动作的原因是它依赖于在每一次最优迭代中寻找动作值函数的最大值(表现为在Q神经网络中输出每个动作的值函数)，针对连续动作空间DQN没有办法输出每个动作的动作值函数，因此，衣物展开的效果并不好。解决上述连续动作空间问题的一个简单方法是将动作空间离散化，但是动作空间是随着动作的自由度呈指数增长的，所以针对大部分任务来说这个方法是不现实的。公开于该
技术介绍
部分的信息仅仅旨在增加对本专利技术的总体背景的理解，而不应当被视为承认或以任何形式暗示该信息构成已为本领域一般技术人员所公知的现有技术。
技术实现思路
：本专利技术的目的在于提供一种基于深度强化学习的柔性物体展开方法，从而克服上述现有技术中的缺陷。为实现上述目的，本专利技术提供了一种基于深度强化学习的柔性物体展开方法，其步骤为：(1)设置训练的智能体，设置柔性物体展开的回报r，将机械臂与柔性物体的距离设置为负回报，距离越近回报值越靠近0；将柔性物体展开好坏设置为正回报，展开的面积越大正回报的值越大；(2)智能体基于确定动作策略的Actor-Critic构架，包括Current网...

【技术保护点】
1.一种基于深度强化学习的柔性物体展开方法，其特征在于：步骤为(1)设置训练的智能体，设置柔性物体展开的回报r，将机械臂与柔性物体的距离设置为负回报，距离越近回报值越靠近0；将柔性物体展开好坏设置为正回报，展开的面积越大正回报的值越大；/n(2)智能体基于确定动作策略的Actor-Critic构架，包括Current网络、Target网络，Current网络包括Actorμ神经网络、Critic Q神经网络，Target网络包括Actorμ＇神经网络、Critic Q＇神经网络；/n(3)Current网络采用“soft”target updates的方式更新网络参数值，更新的网络参数值方程为：/nθ′←τθ+(1-τ)θ′withτ＜＜1 ①/n其中，τ为类似于γ的折扣率，决定了加入Current网络的网络参数的多少，而1-τ为保留Target网络参数的多少，θ’为Target网络的网络参数，θ为Current网络的网络参数；/n(4)Current网络的Actorμ神经网络直接输出动作策略，Critic Q神经网络负责对输出的策略进行评分；对于Actorμ神经网络的训练，使...

【技术特征摘要】
1.一种基于深度强化学习的柔性物体展开方法，其特征在于：步骤为(1)设置训练的智能体，设置柔性物体展开的回报r，将机械臂与柔性物体的距离设置为负回报，距离越近回报值越靠近0；将柔性物体展开好坏设置为正回报，展开的面积越大正回报的值越大；
(2)智能体基于确定动作策略的Actor-Critic构架，包括Current网络、Target网络，Current网络包括Actorμ神经网络、CriticQ神经网络，Target网络包括Actorμ＇神经网络、CriticQ＇神经网络；
(3)Current网络采用“soft”targetupdates的方式更新网络参数值，更新的网络参数值方程为：
θ′←τθ+(1-τ)θ′withτ＜＜1①
其中，τ为类似于γ的折扣率，决定了加入Current网络的网络参数的多少，而1-τ为保留Target网络参数的多少，θ’为Target网络的网络参数，θ为Current网络的网络参数；
(4)Current网络的Actorμ神经网络直接输出动作策略，CriticQ神经网络负责对输出的策略进行评分；对于Actorμ神经网络的训练，使用梯度上升法使评分最大，梯度上升法公式为：

其中，为使用梯度上升法训练出Actorμ神经网络中最好的参数θ，Eμ′为对Actorμ神经网络输出的动作值以及其CriticQ神经网络对该动作的评分值(Q(s,α|θ))的乘积取期望，为对状态为st时Actorμ神经网络输出的动作值与状态为st时CriticQ神经网络对该动作的评分值的乘积分别使用梯度上升法来训练更新网络参数θμ；
对于CriticQ神经网络的训练，借助Target网络的Actorμ＇神经网络、CriticQ＇神经网络，把下一个状态St+1输入到Actorμ神经网络和CriticQ神经网络得到下一个状态的动作策略αt+1以及评分Q，CriticQ神经网络学习方程为：
Qμ(st,at)＝E[r(st,at)+γQμ(st+1,μ(st+1))]③
其中，r(st,αt)函...

【专利技术属性】
技术研发人员：洪一峰，孙葳，陈立成，陈奔，
申请(专利权)人：江苏丰华联合科技有限公司，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人