A robot control method, which is applied in the field of robot technology, includes: according to the source task, the first control model is trained by using the depth determined strategy gradient algorithm, and the trained first control model is used to execute the source task. When receiving the instruction of executing the target task, the first control model and the second control are established The lateral connection between the control models is used to transfer the control experience of the first control model to the second control model. Based on the target task, the second control model is trained by using the control experience, and the trained second control model is used to perform the target task. The invention also discloses a robot control device, a robot and a storage medium, which can transfer experience between the source task and the target task, thus avoiding the catastrophic forgetting phenomenon in the training process and accelerating the learning of the target task.
【技术实现步骤摘要】
机器人控制方法、装置、机器人及存储介质
本专利技术涉及机器人
,尤其涉及一种机器人控制方法、装置、机器人及存储介质。
技术介绍
近年来,深度学习技术为机器人控制领域的研究提供了新的思路。深度神经网络的优势是特征提取的自动化,以及理论上对任意复杂非线性函数的拟合能力。然而深度神经网络具有数据驱动的特性,模型的训练往往需要收集大量数据,这在机器人领域是比较困难的。人们可以把一个在源任务上已经训练好的模型在目标任务上重新训练,以使得模型适应新的任务,该过程被称为网络参数的精调。但在参数精调的过程中,由于不能马上发现已学习的特征与当前任务之间的关系,可能导致部分已学习到的经验被丢失,这种现象也被称为“灾难性遗忘”。
技术实现思路
本专利技术的主要目的在于提供一种机器人控制方法、装置、机器人及存储介质,可以在源任务和目标任务间进行经验的转移,从而避免训练过程中的灾难性遗忘现象,加快对目标任务的学习。为实现上述目的,本专利技术实施例第一方面提供一种机器人控制方法,包括:根据源任务,利用深度确定性策略梯度算法对第一控制模型进行训练,得到训练好的第一控制模型,所述训练好的第一控制模型用于执行所述源任务;当接收到执行目标任务的指令时,建立所述第一控制模型与第二控制模型之间的侧向连接,以将所述第一控制模型的控制经验转移至所述第二控制模型;基于所述目标任务,利用所述控制经验对所述第二控制模型进行训练,得到训练好的第二控制模型,所述训练好的第二控制模型用于执行所述目标任务。进 ...
【技术保护点】
1.一种机器人控制方法,其特征在于,包括:/n根据源任务,利用深度确定性策略梯度算法对第一控制模型进行训练,得到训练好的第一控制模型,所述训练好的第一控制模型用于执行所述源任务;/n当接收到执行目标任务的指令时,建立所述第一控制模型与第二控制模型之间的侧向连接,以将所述第一控制模型的控制经验转移至所述第二控制模型;/n基于所述目标任务,利用所述控制经验对所述第二控制模型进行训练,得到训练好的第二控制模型,所述训练好的第二控制模型用于执行所述目标任务。/n
【技术特征摘要】
1.一种机器人控制方法,其特征在于,包括:
根据源任务,利用深度确定性策略梯度算法对第一控制模型进行训练,得到训练好的第一控制模型,所述训练好的第一控制模型用于执行所述源任务;
当接收到执行目标任务的指令时,建立所述第一控制模型与第二控制模型之间的侧向连接,以将所述第一控制模型的控制经验转移至所述第二控制模型;
基于所述目标任务,利用所述控制经验对所述第二控制模型进行训练,得到训练好的第二控制模型,所述训练好的第二控制模型用于执行所述目标任务。
2.根据权利要求1所述的机器人控制方法,其特征在于,所述利用所述控制经验对所述第二控制模型进行训练时,利用深度确定性策略梯度算法对第二控制模型进行训练,以及,保持所述第一控制模型的各层的参数不变。
3.根据权利要求2所述的机器人控制方法,其特征在于,所述深度确定性策略梯度算法包括行为策略网络和深度Q网络;
所述建立所述第一控制模型与第二控制模型之间的侧向连接包括:
在所述源任务的深度Q网络和所述目标任务的深度Q网络之间,以及,所述源任务的行为策略网络和所述目标任务的行为策略网络之间分别建立侧向连接。
4.根据权利要求1或2所述的机器人控制方法,其特征在于,所述建立所述第一控制模型与第二控制模型之间的侧向连接之后,令第二控制模型第i层的输出为则:
其中,表示第二控制模型第i-1层的输出,Wit表示第二控制模型第i层的权重,表示第一控制模型第i-1层的输出,Ui-1,i表示第一控制模型第i-1层与第二控制模型第i层之间的侧向连接。
5.根据权利要求1所述的机器人控制方法,其特征在于,所述得到训练好的第一控制模型之后,还包括:
将所述训练好的第一训练...
【专利技术属性】
技术研发人员:尚伟伟,隋洪建,李想,丛爽,
申请(专利权)人:中国科学技术大学,
类型:发明
国别省市:安徽;34
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。