【技术实现步骤摘要】
本申请涉及人工智能,尤其涉及运动控制模型训练方法、运动控制方法及相关装置。
技术介绍
1、机器控制是指对机器进行指令和决策的过程,以使其能够执行特定的任务或动作,涉及到从感知环境中获取信息,进行数据处理和决策,最后通过执行机构实现输出,来对机器行为的控制。
2、相关技术中,强化学习被应用在机器控制场景中,强化学习模拟生物体通过与环境交互来学习最佳行为策略的过程,能够帮助机器独立地探索和适应其所处的环境,并通过不断的试错和学习来优化其行为。但是强化学习需要设定合适的奖励来优化机器的运动,目前的奖励要么太过稀疏,训练的强化学习结果决策准确率不高,要么过于复杂,导致强化学习结果的训练成本较高。
技术实现思路
1、本申请实施例的主要目的在于提出运动控制模型训练方法、运动控制方法及相关装置,在提升决策准确率的前提下,降低运动控制场景下强化学习的训练成本。
2、为实现上述目的,本申请实施例的第一方面提出了一种运动控制模型训练方法,包括:
3、获取运动对象的初始状态数
...【技术保护点】
1.一种运动控制模型训练方法,其特征在于,包括:
2.根据权利要求1所述的运动控制模型训练方法,其特征在于,所述初始运动控制模型至少包括随机编码器和策略选择模型;所述将所述初始状态数据输入初始运动控制模型进行运动预测,得到运动状态,包括:
3.根据权利要求2所述的运动控制模型训练方法,其特征在于,所述根据所述运动状态的运动奖励值调整所述初始运动控制模型的模型权重,得到第一运动控制模型,包括:
4.根据权利要求1至3任一项所述的运动控制模型训练方法,其特征在于,所述利用所述第一运动控制模型获取所述运动对象的状态序列,并获取人工标注的所
...【技术特征摘要】
1.一种运动控制模型训练方法,其特征在于,包括:
2.根据权利要求1所述的运动控制模型训练方法,其特征在于,所述初始运动控制模型至少包括随机编码器和策略选择模型;所述将所述初始状态数据输入初始运动控制模型进行运动预测,得到运动状态,包括:
3.根据权利要求2所述的运动控制模型训练方法,其特征在于,所述根据所述运动状态的运动奖励值调整所述初始运动控制模型的模型权重,得到第一运动控制模型,包括:
4.根据权利要求1至3任一项所述的运动控制模型训练方法,其特征在于,所述利用所述第一运动控制模型获取所述运动对象的状态序列,并获取人工标注的所述状态序列的偏好标签,包括:
5.根据权利要求4所述的运动控制模型训练方法,其特征在于,所述状态序列中包括预设数量个状态数据,所述将所述状态序列输入所述初始奖励模型进行奖励值...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。