【技术实现步骤摘要】
基于深度神经网络的灵巧手抓持过程动力学模型搭建及训练方法
[0001]本专利技术属于灵巧手强化学习控制领域,尤其涉及一种基于深度神经网络的灵巧手抓持过程动力学模型搭建及训练方法。
技术介绍
[0002]由于灵巧手的高自由度,如何既要提升灵巧手强化学习控制算法的控制效果,又要提升训练样本数据的利用率成为灵巧手强化学习控制算法领域的难点。当前,强化学习控制算法按智能体(Agent)是否理解环境与自身的动态模型可分为无模型强化学习算法与基于模型的强化学习算法。通过强化学习算法,智能体可针对特定的任务自主同环境进行交互试错,并在过程中获取环境反馈奖励,从而改变智能体的行为使得在下一次与环境交互过程中,环境反馈奖励最大化。
[0003]目前可应用于灵巧手控制主流的无模型强化学习控制算法例如有:Deep Deterministic Policy Gradient(DDPG)、Soft Actor Critic(SAC)、Proximal Policy Optimization(PPO)等,无模型强化学习控制算法有较好的控制性能,然而对数据的样本利用率低,需要收集大量的样本数量,这需要大量的时间成本并在现实中往往难以应用。而基于模型的强化学习控制算法的优点是对样本数据的利用率。目前主流的基于模型的强化学习控制算法例如有:AlphaZero、Imagination
‑
Augmented Agents(I2A)、MBMF等。这些算法或需要领域专家根据专业知识提供系统动力学模型或需要从环境的交互过程中学习系统动 ...
【技术保护点】
【技术特征摘要】
1.一种基于深度神经网络的灵巧手抓持过程动力学模型搭建及训练方法,其特征在于,包括如下步骤:步骤1:灵巧手使用SAC算法策略π
θ
在环境内同抓持物体交互并训练,采集系统状态转移数据并放入样本缓存区;步骤2:设定模糊聚类的类别个数并对样本缓存区内状态转移数据进行模糊聚类;步骤3:搭建包含状态增量方向概率子网络模型f
d
与状态增量增幅子网络模型f
a
的灵巧手动力学模型f;步骤4:对模糊聚类的各类别依据隶属度生成样本采样概率,进行采样得到训练样本;步骤5:灵巧手动力学模型训练,并进行环境系统状态预测。2.根据权利要求1所述的基于深度神经网络的灵巧手抓持过程动力学模型搭建及训练方法,其特征在于,步骤1使用MuJoCo物理仿真引擎对灵巧手与被抓持物体进行抓持过程仿真,仿真环境不断产生呈高斯分布的外力与扭矩噪声施加在被抓持物体的质心与灵巧手关节转矩上,以模拟现实场景下随机的外力干扰;随着仿真器内部时间推移,灵巧手与被抓持物体的状态会发生变化,整个过程符合马尔可夫决策过程,用五元组<S,A,P,R,γ>表示,其中S表示灵巧手与被抓持物体构成的系统状态空间,A表示灵巧手关节动作空间,P表示状态转移概率,R表示奖励空间,γ表示奖励折扣系数。3.根据权利要求1所述的基于深度神经网络的灵巧手抓持过程动力学模型搭建及训练方法,其特征在于,步骤1使用无模型强化学习算法SAC的Actor网络作为灵巧手控制策略π
θ
,将系统目标g设定为抓持物体至随机方位,若被抓持物体掉落则视为本次仿真结束并重置仿真环境,在仿真器中记录灵巧手与被抓持物体状态转移数据(s,a,s
′
,r),其中s为当前时刻系统状态,a为当前时刻系统输入动作,s
′
为系统下一时刻状态,r为根据抓持目标计算得到的奖励值,保存状态转移数据,得到数据集Data:Data={(s1,a1,s2,r1),(s2,a2,s3,r2),...,(s
n
‑1,a
n
‑1,s
n
,r
n
‑1)};并使用Data训练Actor与Critic网络。4.根据权利要求3所述的基于深度神经网络的灵巧手抓持过程动力学模型搭建及训练方法,其特征在于,步骤2包括如下具体步骤:对数据集Data进行模糊聚类,随机设置模糊聚类中心集C={c1,c2,...,c
k
},其中聚类中心c包含元素个数与系统状态s相同;计算数据集Data内每个状态s与每个聚类中心c的欧式距离d得到距离矩阵其中d
ij
=‖s
i
‑
c
j
‖表示第i个状态与第j个聚类中心的欧式距离值;调整模糊聚类中心集C,使得距离矩阵D
t
各元素平方和最小;计算数据集Data内状态s对聚类类别隶属度u得到隶属度矩阵其中表示第i个...
【专利技术属性】
技术研发人员:周锦瑜,盛士能,王壮,祝雯豪,俞冰清,鲍官军,胥芳,
申请(专利权)人:浙江工业大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。