【技术实现步骤摘要】
本专利技术涉及机器人控制,特别是指一种用于机器人控制的非线性状态表征学习方法及装置。
技术介绍
1、在智能机器人的强化学习、模仿学习等研究领域中,马尔可夫决策过程是一个常用的数学框架,用于对机器人所处的顺序随机环境以及机器人所面临的决策问题进行建模。在马尔可夫决策过程中,状态反映了机器人的智能决策系统对于环境和任务的认知,是机器人做出决策、决定下一步行动的必要依据,状态能否良好地反映环境特点、任务进度,将影响智能体决策的质量。
2、对于智能机器人而言,由传感器输入的原始数据是高维、未经筛选的,计算复杂度较高且不能良好地反映与决策任务相关的环境因素,不适合直接用作马尔可夫过程中的状态量,因此状态一般是根据具体任务特点,对传感器输入数据进行降维、提炼等分析处理操作而获得。
3、在传统方法中,原始数据的分析处理过程是由人工预先分析任务、环境以及传感器的特点,进而设计出某种从原始输入到状态量的映射来完成,这一设计工作称为“状态空间设计”。这种方法的效果依赖于负责设计状态量的工程师的个人工作经验,且工作量较大、难以迁移泛化
...【技术保护点】
1.一种用于机器人控制的非线性状态表征学习方法,其特征在于,所述方法包括:
2.根据权利要求1所述的用于机器人控制的非线性状态表征学习方法,其特征在于,所述环境信息为机器人处理的非线性状态表征信息。
3.根据权利要求1所述的用于机器人控制的非线性状态表征学习方法,其特征在于,所述根据所述马尔科夫状态量,基于所述马尔科夫决策器进行数据收集,获得经验样本以及任务反馈信息,包括:
4.根据权利要求1所述的用于机器人控制的非线性状态表征学习方法,其特征在于,所述基于相对熵策略搜索方法,根据所述经验样本以及任务反馈信息进行计算,得到样本权重,
...
【技术特征摘要】
1.一种用于机器人控制的非线性状态表征学习方法,其特征在于,所述方法包括:
2.根据权利要求1所述的用于机器人控制的非线性状态表征学习方法,其特征在于,所述环境信息为机器人处理的非线性状态表征信息。
3.根据权利要求1所述的用于机器人控制的非线性状态表征学习方法,其特征在于,所述根据所述马尔科夫状态量,基于所述马尔科夫决策器进行数据收集,获得经验样本以及任务反馈信息,包括:
4.根据权利要求1所述的用于机器人控制的非线性状态表征学习方法,其特征在于,所述基于相对熵策略搜索方法,根据所述经验样本以及任务反馈信息进行计算,得到样本权重,包括:
5.根据权利要求1所述的用于机器人控制的非线性状态表征学习方法,其特征在于,所述基于预设的核函数,根据所述经验样本以及所述样本权重进行优化降维处理,获得优化马尔科夫状态量,包...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。