【技术实现步骤摘要】
基于强化学习和无监督学习的机器人技能学习方法及系统
本专利技术涉及机器人控制
,特别是一种基于强化学习和无监督学习的机器人技能学习方法及系统。
技术介绍
强化学习作为目前应用较广的一种机器学习算法,其最大的特点在于能够从环境中学习从状态到动作的映射,以人为设计的奖励函数为基础,使得一系列动作决策都是以最大化累积奖励为目标。其中深度强化学习即是以深度神经网络为基础,以状态作为网络输入,动作作为网络输出值,通过不断地训练得到最佳的决策网络。深度强化学习可以应用于各种需要决策优化的场景,比如游戏AI以及机器人控制等。随着机器人技术的发展,机器人的应用场景在逐渐增多,比如机械臂的任务规划问题一直是机器人研究领域的重要方向。强化学习可以使得机械臂在通过训练之后执行不同的任务,对于端到端的强化学习网络架构来说,可以仅使用图片作为输入,然后输出机械臂运动所需的关节角度变化。但是,使用端到端的深度神经网络一般难以收敛,需要更多的训练时间,而且对于不同的任务,需要设计不同的奖励函数,特别定制的网络结构以及参数使得它只能完成特定的 ...
【技术保护点】
1.基于强化学习和无监督学习的机器人技能学习方法,其特征在于,包括如下步骤:/nS1、机器人控制器先使用蒙特卡洛树搜索来控制执行机构在任务环境中作出随机动作;图像采集子系统采集执行机构的实时状态图像,并将实时状态图像传输给无监督学习子系统;/nS2、无监督学习子系统利用实时状态图像进行无监督学习:先令内部的编码器将实时状态图像转换成实时状态编码,再令内部的解码器将实时状态编码还原为实时状态图像,直至解码器所还原出来的实时状态图像为原输入图像,此时无监督学习子系统即训练完成;/nS3、利用训练完成后的编码器将实时状态图像转换成实时状态编码,然后以某一时刻的实时状态编码作为深度 ...
【技术特征摘要】
1.基于强化学习和无监督学习的机器人技能学习方法,其特征在于,包括如下步骤:
S1、机器人控制器先使用蒙特卡洛树搜索来控制执行机构在任务环境中作出随机动作;图像采集子系统采集执行机构的实时状态图像,并将实时状态图像传输给无监督学习子系统;
S2、无监督学习子系统利用实时状态图像进行无监督学习:先令内部的编码器将实时状态图像转换成实时状态编码,再令内部的解码器将实时状态编码还原为实时状态图像,直至解码器所还原出来的实时状态图像为原输入图像,此时无监督学习子系统即训练完成;
S3、利用训练完成后的编码器将实时状态图像转换成实时状态编码,然后以某一时刻的实时状态编码作为深度强化学习子系统的输入,深度强化学习子系统输出下一时刻执行机构的动作值,并以下一时刻的实时状态编码和目标编码之间的相似度计算奖励函数,由此进行深度强化学习子系统的更新;
S4、设定在任务环境下执行机构执行完成某一指定任务时的状态图像,并将其作为目标图像;
S5、机器人控制器先根据指定任务,控制执行机构作出动作,图像采集子系统采集执行机构执行过程中的实时状态图像,并将实时状态图像传输给无监督学习子系统;
S6、训练完成后的无监督学习子系统的编码器将实时状态图像转换成实时状态编码,以及将输入的目标图像转换成目标编码;训练完成后的深度强化学习子系统以实时状态编码作为输入,输出下一时刻执行机构的动作值,以下一时刻的实时状态编码和目标编码之间的相似度计算奖励函数;机器人控制器根据执行机构的动作值,实时控制执行机构作出相应动作;
S7、重复步骤S5~S6,直至执行机构执行完成任务。
2.根据权利要求1所述的机器人技能学习方法,其特征在于,在步骤S3中,深度强化学习子系统以某一时刻的实时状态编码、下一时刻的实时状态编码及动作值、目标编码作为一组训练数据;
多组训练数据存放到一个重放经验池中,在每次训练时,从重放经验池中有放回地抽取一个批次的训练数据来对深度强化学习子系统进行训练。
3.根据权利要求1所述的机器人技能学习方法,其特征在于,在步骤S6中,以下一时刻的实时状态编码和目标编码之间的欧几里得距离计算奖励函数,奖励大小与欧几里得距离成反比。
4.根据权利要求1所述的机器人技能学习方法,其特征在于,训练所用的目标编码直接使用从高斯分布采样得到的向量。
5.一种基于强化学习和无监督学习的机器人技能学习系统,其特征在于,所述系统用于实现权利要求1~4中任一项所述的基于强化学习和无监督学习...
【专利技术属性】
技术研发人员:陈艺文,占宏,杨辰光,
申请(专利权)人:华南理工大学,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。