运动控制模型训练方法、运动控制方法及相关装置制造方法及图纸

技术编号:40366246 阅读:15 留言:0更新日期:2024-02-20 22:12
本申请实施例提供运动控制模型训练方法、运动控制方法及相关装置,涉及人工智能技术领域。该方法利用无监督的训练方式,利用运动奖励值对运动控制模型进行初步预训练,使得运动控制模型能够实现基础的运动预测。然后生成两组状态序列,利用人工标注的方式引入专家结论,对奖励函数进行优化,然后利用优化后的奖励函数对运动奖励值进行更新,进而得到目标运动控制模型。更新后的运动奖励值能够更好地反映专家的偏好,能够作为更合适的奖励目标,从而进一步精准调整运动控制模型的权重。通过预训练降低部分训练成本,再通过人机回环的模式,避免复杂的奖励函数,使得运动控制模型能够更加灵活和适应性强,并提升训练结果的准确率。

【技术实现步骤摘要】

本申请涉及人工智能,尤其涉及运动控制模型训练方法、运动控制方法及相关装置


技术介绍

1、机器控制是指对机器进行指令和决策的过程,以使其能够执行特定的任务或动作,涉及到从感知环境中获取信息,进行数据处理和决策,最后通过执行机构实现输出,来对机器行为的控制。

2、相关技术中,强化学习被应用在机器控制场景中,强化学习模拟生物体通过与环境交互来学习最佳行为策略的过程,能够帮助机器独立地探索和适应其所处的环境,并通过不断的试错和学习来优化其行为。但是强化学习需要设定合适的奖励来优化机器的运动,目前的奖励要么太过稀疏,训练的强化学习结果决策准确率不高,要么过于复杂,导致强化学习结果的训练成本较高。


技术实现思路

1、本申请实施例的主要目的在于提出运动控制模型训练方法、运动控制方法及相关装置,在提升决策准确率的前提下,降低运动控制场景下强化学习的训练成本。

2、为实现上述目的,本申请实施例的第一方面提出了一种运动控制模型训练方法,包括:

3、获取运动对象的初始状态数据,并将所述初始状态本文档来自技高网...

【技术保护点】

1.一种运动控制模型训练方法,其特征在于,包括:

2.根据权利要求1所述的运动控制模型训练方法,其特征在于,所述初始运动控制模型至少包括随机编码器和策略选择模型;所述将所述初始状态数据输入初始运动控制模型进行运动预测,得到运动状态,包括:

3.根据权利要求2所述的运动控制模型训练方法,其特征在于,所述根据所述运动状态的运动奖励值调整所述初始运动控制模型的模型权重,得到第一运动控制模型,包括:

4.根据权利要求1至3任一项所述的运动控制模型训练方法,其特征在于,所述利用所述第一运动控制模型获取所述运动对象的状态序列,并获取人工标注的所述状态序列的偏好标签...

【技术特征摘要】

1.一种运动控制模型训练方法,其特征在于,包括:

2.根据权利要求1所述的运动控制模型训练方法,其特征在于,所述初始运动控制模型至少包括随机编码器和策略选择模型;所述将所述初始状态数据输入初始运动控制模型进行运动预测,得到运动状态,包括:

3.根据权利要求2所述的运动控制模型训练方法,其特征在于,所述根据所述运动状态的运动奖励值调整所述初始运动控制模型的模型权重,得到第一运动控制模型,包括:

4.根据权利要求1至3任一项所述的运动控制模型训练方法,其特征在于,所述利用所述第一运动控制模型获取所述运动对象的状态序列,并获取人工标注的所述状态序列的偏好标签,包括:

5.根据权利要求4所述的运动控制模型训练方法,其特征在于,所述状态序列中包括预设数量个状态数据,所述将所述状态序列输入所述初始奖励模型进行奖励值...

【专利技术属性】
技术研发人员:管娅妮贾振中刘鑫
申请(专利权)人:南方科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1