【技术实现步骤摘要】
本专利技术涉及自动控制,具体的说,涉及一种基于符号策略学习的机械臂控制方法及装置。
技术介绍
1、在机械臂控制领域,可以通过构建模拟环境使用强化学习策略从而控制机械臂动作。但是,在深度强化学习中,策略通常使用深度神经网络实现。深度神经网络包含大量的参数和数以千计的嵌套的非线性算子。尽管深度神经网络具有出色的对关系的表示能力。但由于其复杂性,导致难以理解预测行为,致使机械臂控制过程中存在额外的安全性隐患,另外复杂的神经网络策略难以在有限的计算资源下进行部署。
技术实现思路
1、本专利技术的目的旨在提出一种机械臂控制方法及装置,该方法能够提高符号策略学习的效率,从而使用更少的交互数据学习到机械臂控制,提高了机械臂控制的精度。
2、为了实现上述目的,本专利技术一方面提供一种机械臂控制方法,包含:
3、构建机械臂控制的模拟环境,获取环境状态信息,所述环境状态信息包含机械臂的位姿与速度,以及待操作物体位置;
4、以所述环境状态信息作为输入信息,输入至符号网络中,所
...【技术保护点】
1.一种机械臂控制方法,其特征在于,包含:
2.根据权利要求1所述的方法,其特征在于,
3.根据权利要求2所述的方法,其特征在于,
4.根据权利要求2所述的方法,其特征在于,
5.根据权利要求2所述的方法,其特征在于,
6.根据权利要求5所述的方法,其特征在于,
7.根据权利要求6所述的方法,其特征在于,还包含:
8.根据权利要求7所述的方法,其特征在于,还包含:
9.根据权利要求8所述的方法,其特征在于,使用SAC软行为者批评算法训练更新所述符号网络与路径概率、以及所述价
...【技术特征摘要】
1.一种机械臂控制方法,其特征在于,包含:
2.根据权利要求1所述的方法,其特征在于,
3.根据权利要求2所述的方法,其特征在于,
4.根据权利要求2所述的方法,其特征在于,
5.根据权利要求2所述的方法,其特征在于,
6.根据权利要求5所述的方法,其特征在于,
7.根据权利要求6所述的方法,其特征在于,还包含...
【专利技术属性】
技术研发人员:郭家明,张蕊,胡杏,杜子东,张曦珊,郭崎,
申请(专利权)人:中国科学院计算技术研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。