基于深度神经网络的灵巧手抓持过程动力学模型搭建及训练方法技术

技术编号:33287932 阅读:23 留言:0更新日期:2022-04-30 23:59
本发明专利技术公开了一种基于深度神经网络的灵巧手抓持过程动力学模型搭建及训练方法,包括步骤1:灵巧手使用SAC算法策略在环境内同抓持物体交互并训练,采集系统状态转移数据并放入样本缓存区;步骤2:设定模糊聚类的类别个数并对样本缓存区内状态转移数据进行模糊聚类;步骤3:搭建包含状态增量方向概率子网络模型与状态增量增幅子网络模型的灵巧手动力学模型f;步骤4:对模糊聚类的各类别依据隶属度生成样本采样概率,进行采样得到训练样本;步骤5:灵巧手动力学模型训练,并进行环境系统状态预测。本发明专利技术提高了动力学模型的精准度,减小了在动力学模型训练过程中局部过拟合现象,减小了动力学模型预测误差、提高了稳定性。性。性。

【技术实现步骤摘要】
基于深度神经网络的灵巧手抓持过程动力学模型搭建及训练方法


[0001]本专利技术属于灵巧手强化学习控制领域,尤其涉及一种基于深度神经网络的灵巧手抓持过程动力学模型搭建及训练方法。

技术介绍

[0002]由于灵巧手的高自由度,如何既要提升灵巧手强化学习控制算法的控制效果,又要提升训练样本数据的利用率成为灵巧手强化学习控制算法领域的难点。当前,强化学习控制算法按智能体(Agent)是否理解环境与自身的动态模型可分为无模型强化学习算法与基于模型的强化学习算法。通过强化学习算法,智能体可针对特定的任务自主同环境进行交互试错,并在过程中获取环境反馈奖励,从而改变智能体的行为使得在下一次与环境交互过程中,环境反馈奖励最大化。
[0003]目前可应用于灵巧手控制主流的无模型强化学习控制算法例如有:Deep Deterministic Policy Gradient(DDPG)、Soft Actor Critic(SAC)、Proximal Policy Optimization(PPO)等,无模型强化学习控制算法有较好的控制性能,然而对数据的样本利用率低,需要收集大量的样本数量,这需要大量的时间成本并在现实中往往难以应用。而基于模型的强化学习控制算法的优点是对样本数据的利用率。目前主流的基于模型的强化学习控制算法例如有:AlphaZero、Imagination

Augmented Agents(I2A)、MBMF等。这些算法或需要领域专家根据专业知识提供系统动力学模型或需要从环境的交互过程中学习系统动力学。然而,由灵巧手

被抓持物体所构成的系统由于碰撞场景多,难以事先给定系统动力学模型,需要通过监督式学习得到近似的系统动力学模型。常用的监督式学习动力学模型方法例如有:Sparse Identification of Nonlinear Dynamics(SINDy)、动力学参数识别、神经网络拟合动力学模型等。SINDy及相关方法需要给定一个泛函字典集,因而存在应用难度大的缺点。动力学参数识别需要提前给定系统动力学模型框架,在富含碰撞的灵巧手

被抓持物体构成的系统中并不适用。而目前采用神经网络拟合动力学模型方法则存在着稳定性差、易产生过拟合现象等问题。

技术实现思路

[0004]本专利技术目的在于提供一种基于深度神经网络的灵巧手抓持过程动力学模型搭建及训练方法,以解决目前系统无法给定动力学模型、给定泛函字典集难度高、神经网络拟合动力学模型稳定性差,易产生过拟合现象的技术问题。
[0005]为解决上述技术问题,本专利技术的一种基于深度神经网络的灵巧手抓持过程动力学模型搭建及训练方法的具体技术方案如下:
[0006]一种基于深度神经网络的灵巧手抓持过程动力学模型搭建及训练方法,包括如下步骤:
[0007]步骤1:灵巧手使用SAC算法策略π
θ
在环境内同抓持物体交互并训练,采集系统状
态转移数据并放入样本缓存区;
[0008]步骤2:设定模糊聚类的类别个数并对样本缓存区内状态转移数据进行模糊聚类;
[0009]步骤3:搭建包含状态增量方向概率子网络模型f
d
与状态增量增幅子网络模型f
a
的灵巧手动力学模型f;
[0010]步骤4:对模糊聚类的各类别依据隶属度生成样本采样概率,进行采样得到训练样本;
[0011]步骤5:灵巧手动力学模型训练,并进行环境系统状态预测。
[0012]进一步地,步骤1使用MuJoCo物理仿真引擎对灵巧手与被抓持物体进行抓持过程仿真,仿真环境不断产生呈高斯分布的外力与扭矩噪声施加在被抓持物体的质心与灵巧手关节转矩上,以模拟现实场景下随机的外力干扰;随着仿真器内部时间推移,灵巧手与被抓持物体的状态会发生变化,整个过程符合马尔可夫决策过程,用五元组<S,A,P,R,γ>表示,其中S表示灵巧手与被抓持物体构成的系统状态空间,A表示灵巧手关节动作空间,P表示状态转移概率,R表示奖励空间,γ表示奖励折扣系数。
[0013]进一步地,步骤1使用无模型强化学习算法SAC的Actor网络作为灵巧手控制策略π
θ
,将系统目标g设定为抓持物体至随机方位,若被抓持物体掉落则视为本次仿真结束并重置仿真环境,在仿真器中记录灵巧手与被抓持物体状态转移数据(s,a,s

,r),其中s为当前时刻系统状态,a为当前时刻系统输入动作,s

为系统下一时刻状态,r为根据抓持目标计算得到的奖励值,保存状态转移数据,得到数据集Data:
[0014]Data={(s1,a1,s2,r1),(s2,a2,s3,r2),...,(s
n
‑1,a
n
‑1,s
n
,r
n
‑1)};
[0015]并使用Data训练Actor与Critic网络。
[0016]进一步地,步骤2包括如下具体步骤:
[0017]对数据集Data进行模糊聚类,随机设置模糊聚类中心集C={c1,c2,...,c
k
},其中聚类中心c包含元素个数与系统状态s相同;计算数据集Data内每个状态s与每个聚类中心c的欧式距离d得到距离矩阵其中d
ij
=‖s
i

c
j
‖表示第i个状态与第j个聚类中心的欧式距离值;调整模糊聚类中心集C,使得距离矩阵D
t
各元素平方和最小;计算数据集Data内状态s对聚类类别隶属度u得到隶属度矩阵其中表示第i个状态对第j个聚类类别的隶属度。
[0018]进一步地,步骤3包括如下具体步骤:
[0019]使用Pytorch深度神经网络框架搭建状态增量方向概率子网络模型f
d
,与状态增量增幅子网络模型f
a
;f
d
与f
a
的输入包含灵巧手与被抓持物体系统的状态s与灵巧手关节输入动作a,并由三层线性层、两层ReLu层、两层正负极性通道层构成,f
d
在网络尾部另设置有一层Sigmoid层;f
d
与f
a
的输出分别为系统状态变化量Δs的方向与绝对值。
[0020]进一步地,步骤4包括如下具体步骤:
[0021]对每个聚类类别进行动力学模型训练样本采样;根据隶属度矩阵U计算数据集
Data状态s在每个类别中被采样概率p得到概率矩阵其中表示第i个状态在第j个聚类类别中被采样的概率,若状态s
i
被采得,则(s
i
,a
i
,s

i
)作为一个训练样本。
[0022]进一步地,步骤5包括如下具体步骤:
[0023]对f
d
进行训练,设定损失函数为:
[0本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度神经网络的灵巧手抓持过程动力学模型搭建及训练方法,其特征在于,包括如下步骤:步骤1:灵巧手使用SAC算法策略π
θ
在环境内同抓持物体交互并训练,采集系统状态转移数据并放入样本缓存区;步骤2:设定模糊聚类的类别个数并对样本缓存区内状态转移数据进行模糊聚类;步骤3:搭建包含状态增量方向概率子网络模型f
d
与状态增量增幅子网络模型f
a
的灵巧手动力学模型f;步骤4:对模糊聚类的各类别依据隶属度生成样本采样概率,进行采样得到训练样本;步骤5:灵巧手动力学模型训练,并进行环境系统状态预测。2.根据权利要求1所述的基于深度神经网络的灵巧手抓持过程动力学模型搭建及训练方法,其特征在于,步骤1使用MuJoCo物理仿真引擎对灵巧手与被抓持物体进行抓持过程仿真,仿真环境不断产生呈高斯分布的外力与扭矩噪声施加在被抓持物体的质心与灵巧手关节转矩上,以模拟现实场景下随机的外力干扰;随着仿真器内部时间推移,灵巧手与被抓持物体的状态会发生变化,整个过程符合马尔可夫决策过程,用五元组<S,A,P,R,γ>表示,其中S表示灵巧手与被抓持物体构成的系统状态空间,A表示灵巧手关节动作空间,P表示状态转移概率,R表示奖励空间,γ表示奖励折扣系数。3.根据权利要求1所述的基于深度神经网络的灵巧手抓持过程动力学模型搭建及训练方法,其特征在于,步骤1使用无模型强化学习算法SAC的Actor网络作为灵巧手控制策略π
θ
,将系统目标g设定为抓持物体至随机方位,若被抓持物体掉落则视为本次仿真结束并重置仿真环境,在仿真器中记录灵巧手与被抓持物体状态转移数据(s,a,s

,r),其中s为当前时刻系统状态,a为当前时刻系统输入动作,s

为系统下一时刻状态,r为根据抓持目标计算得到的奖励值,保存状态转移数据,得到数据集Data:Data={(s1,a1,s2,r1),(s2,a2,s3,r2),...,(s
n
‑1,a
n
‑1,s
n
,r
n
‑1)};并使用Data训练Actor与Critic网络。4.根据权利要求3所述的基于深度神经网络的灵巧手抓持过程动力学模型搭建及训练方法,其特征在于,步骤2包括如下具体步骤:对数据集Data进行模糊聚类,随机设置模糊聚类中心集C={c1,c2,...,c
k
},其中聚类中心c包含元素个数与系统状态s相同;计算数据集Data内每个状态s与每个聚类中心c的欧式距离d得到距离矩阵其中d
ij
=‖s
i

c
j
‖表示第i个状态与第j个聚类中心的欧式距离值;调整模糊聚类中心集C,使得距离矩阵D
t
各元素平方和最小;计算数据集Data内状态s对聚类类别隶属度u得到隶属度矩阵其中表示第i个...

【专利技术属性】
技术研发人员:周锦瑜盛士能王壮祝雯豪俞冰清鲍官军胥芳
申请(专利权)人:浙江工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1