机器人控制方法、装置、机器人及存储介质制造方法及图纸

技术编号:22557676 阅读:19 留言:0更新日期:2019-11-16 01:19
一种机器人控制方法,应用于机器人技术领域,包括:根据源任务,利用深度确定性策略梯度算法对第一控制模型进行训练,得到训练好的第一控制模型,该训练好的第一控制模型用于执行该源任务,当接收到执行目标任务的指令时,建立该第一控制模型与第二控制模型之间的侧向连接,以将该第一控制模型的控制经验转移至该第二控制模型,基于该目标任务,利用该控制经验对该第二控制模型进行训练,得到训练好的第二控制模型,该训练好的第二控制模型用于执行该目标任务。本发明专利技术还公开了一种机器人控制装置、机器人及存储介质,可以在源任务和目标任务间进行经验的转移,从而避免训练过程中的灾难性遗忘现象,加快对目标任务的学习。

Robot control method, device, robot and storage medium

A robot control method, which is applied in the field of robot technology, includes: according to the source task, the first control model is trained by using the depth determined strategy gradient algorithm, and the trained first control model is used to execute the source task. When receiving the instruction of executing the target task, the first control model and the second control are established The lateral connection between the control models is used to transfer the control experience of the first control model to the second control model. Based on the target task, the second control model is trained by using the control experience, and the trained second control model is used to perform the target task. The invention also discloses a robot control device, a robot and a storage medium, which can transfer experience between the source task and the target task, thus avoiding the catastrophic forgetting phenomenon in the training process and accelerating the learning of the target task.

【技术实现步骤摘要】
机器人控制方法、装置、机器人及存储介质
本专利技术涉及机器人
,尤其涉及一种机器人控制方法、装置、机器人及存储介质。
技术介绍
近年来,深度学习技术为机器人控制领域的研究提供了新的思路。深度神经网络的优势是特征提取的自动化,以及理论上对任意复杂非线性函数的拟合能力。然而深度神经网络具有数据驱动的特性,模型的训练往往需要收集大量数据,这在机器人领域是比较困难的。人们可以把一个在源任务上已经训练好的模型在目标任务上重新训练,以使得模型适应新的任务,该过程被称为网络参数的精调。但在参数精调的过程中,由于不能马上发现已学习的特征与当前任务之间的关系,可能导致部分已学习到的经验被丢失,这种现象也被称为“灾难性遗忘”。
技术实现思路
本专利技术的主要目的在于提供一种机器人控制方法、装置、机器人及存储介质,可以在源任务和目标任务间进行经验的转移,从而避免训练过程中的灾难性遗忘现象,加快对目标任务的学习。为实现上述目的,本专利技术实施例第一方面提供一种机器人控制方法,包括:根据源任务,利用深度确定性策略梯度算法对第一控制模型进行训练,得到训练好的第一控制模型,所述训练好的第一控制模型用于执行所述源任务;当接收到执行目标任务的指令时,建立所述第一控制模型与第二控制模型之间的侧向连接,以将所述第一控制模型的控制经验转移至所述第二控制模型;基于所述目标任务,利用所述控制经验对所述第二控制模型进行训练,得到训练好的第二控制模型,所述训练好的第二控制模型用于执行所述目标任务。进一步地,所述利用所述控制经验对所述第二控制模型进行训练时,利用深度确定性策略梯度算法对第二控制模型进行训练,以及,保持所述第一控制模型的各层的参数不变。进一步地,所述深度确定性策略梯度算法包括行为策略网络和深度Q网络;所述建立所述第一控制模型与第二控制模型之间的侧向连接包括:在所述源任务的深度Q网络和所述目标任务的深度Q网络之间,以及,所述源任务的行为策略网络和所述目标任务的行为策略网络之间分别建立侧向连接。进一步地,所述建立所述第一控制模型与第二控制模型之间的侧向连接之后,令第二控制模型第i层的输出为则:其中,表示第二控制模型第i-1层的输出,Wit表示第二控制模型第i层的权重,表示第一控制模型第i-1层的输出,Ui-1,i表示第一控制模型第i-1层与第二控制模型第i层之间的侧向连接。进一步地,所述得到训练好的第一控制模型之后,还包括:将所述训练好的第一训练模型保存至本地模型库中,保持所述训练好的第一控制模型的参数不变。进一步地,所述将所述第一控制模型的控制经验转移至所述第二控制模型包括:建立所述第一控制模型到所述第二控制模型的经验转移通路,以将所述第一控制模型的控制经验转移至所述第二控制模型。本专利技术实施例第二方面提供一种机器人控制装置,包括:第一训练模块,用于根据源任务,利用深度确定性策略梯度算法对第一控制模型进行训练,得到训练好的第一控制模型,所述训练好的第一控制模型用于执行所述源任务;连接建立模块,用于当接收到执行目标任务的指令时,建立所述第一控制模型与第二控制模型之间的侧向连接,以将所述第一控制模型的控制经验转移至所述第二控制模型;第二训练模块,用于基于所述目标任务,利用所述控制经验对所述第二控制模型进行训练,得到训练好的第二控制模型,所述训练好的第二控制模型用于执行所述目标任务。进一步地,所述建立所述第一控制模型与第二控制模型之间的侧向连接之后,令第二控制模型第i层的输出为则:其中,表示第二控制模型第i-1层的输出,Wit表示第二控制模型第i层的权重,表示第一控制模型第i-1层的输出,Ui-1,i表示第一控制模型第i-1层与第二控制模型第i层之间的侧向连接。本专利技术实施例第三方面提供了一种机器人,所述机器人执行目标任务时,实现本专利技术实施例第一方面所述的机器人控制方法。本专利技术实施例第四方面提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现本专利技术实施例第一方面提供的机器人控制方法。与已有技术相比,本公开的有益效果体现在:1、本专利技术使用深度强化学习方法对源任务模型进行训练,深度强化学习是一种无模型的控制策略学习方法,算法通过不断地尝试和犯错来学习,只需要设计者提供一个表示当前行为好坏的奖励函数,训练过程不需要人工干预,因此学习过程自动化程度高。2、本专利技术基于渐进式神经网络,渐进式神经网络将所有在源任务上训练的第一控制模型都保存到模型库中,当需要迁移到目标任务时,在第一控制模型和目标任务模型(第二控制模型)间建立侧向连接作为经验转移的通路。训练过程中第一控制模型的参数保持不变,只训练侧向连接中的权重和第二控制模型的权重,因此可以避免出现灾难性遗忘现象。通过侧向连接源任务上学习到的经验可以转移到目标任务,因此可以大大加快目标任务的学习。3、衡量源任务和目标任务的相似性一直是迁移学习的难点,本专利技术通过渐进式神经网络中的侧向连接自动调整从源任务迁移经验的强弱,避免了人为定义任务的相似性。而且第一控制模型与第二控制模型的侧向连接使得低层次特征的迁移成为可能,提高了经验迁移的丰富性和灵活性。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术一实施例提供的机器人控制方法的流程示意图;图2为本专利技术一实施例提供的机器人控制方法中梯度在深度Q网络与行为策略网络间的流动示意图;图3为本专利技术一实施例提供的机器人控制方法中三列网络组成的渐进式神经网络的示意图;图4为本专利技术一实施例提供的机器人控制方法中深度确定性策略梯度与渐进式神经网络结合示意图;图5为本专利技术一实施例提供的机器人控制装置的结构示意图。具体实施方式为使得本专利技术的专利技术目的、特征、优点能够更加的明显和易懂,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而非全部实施例。基于本专利技术中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本实施例提供的机器人控制方法包括:基于深度确定性策略梯度(DDPG,DeepDeterministicPolicyGradient)算法的源任务训练和从源任务到目标任务的经验迁移两部分。在经验迁移的部分中,在第一控制模型与第二控制模型间通过建立侧向连接来搭建迁移通道,侧向连接中的权重会在训练过程中自动调整,增加了经验迁移的效率。在本实施例中,源域,即数据量充足,或数据获取方便,已经获取到知识的领域。源任务是指源域中的一个本文档来自技高网...

【技术保护点】
1.一种机器人控制方法,其特征在于,包括:/n根据源任务,利用深度确定性策略梯度算法对第一控制模型进行训练,得到训练好的第一控制模型,所述训练好的第一控制模型用于执行所述源任务;/n当接收到执行目标任务的指令时,建立所述第一控制模型与第二控制模型之间的侧向连接,以将所述第一控制模型的控制经验转移至所述第二控制模型;/n基于所述目标任务,利用所述控制经验对所述第二控制模型进行训练,得到训练好的第二控制模型,所述训练好的第二控制模型用于执行所述目标任务。/n

【技术特征摘要】
1.一种机器人控制方法,其特征在于,包括:
根据源任务,利用深度确定性策略梯度算法对第一控制模型进行训练,得到训练好的第一控制模型,所述训练好的第一控制模型用于执行所述源任务;
当接收到执行目标任务的指令时,建立所述第一控制模型与第二控制模型之间的侧向连接,以将所述第一控制模型的控制经验转移至所述第二控制模型;
基于所述目标任务,利用所述控制经验对所述第二控制模型进行训练,得到训练好的第二控制模型,所述训练好的第二控制模型用于执行所述目标任务。


2.根据权利要求1所述的机器人控制方法,其特征在于,所述利用所述控制经验对所述第二控制模型进行训练时,利用深度确定性策略梯度算法对第二控制模型进行训练,以及,保持所述第一控制模型的各层的参数不变。


3.根据权利要求2所述的机器人控制方法,其特征在于,所述深度确定性策略梯度算法包括行为策略网络和深度Q网络;
所述建立所述第一控制模型与第二控制模型之间的侧向连接包括:
在所述源任务的深度Q网络和所述目标任务的深度Q网络之间,以及,所述源任务的行为策略网络和所述目标任务的行为策略网络之间分别建立侧向连接。


4.根据权利要求1或2所述的机器人控制方法,其特征在于,所述建立所述第一控制模型与第二控制模型之间的侧向连接之后,令第二控制模型第i层的输出为则:



其中,表示第二控制模型第i-1层的输出,Wit表示第二控制模型第i层的权重,表示第一控制模型第i-1层的输出,Ui-1,i表示第一控制模型第i-1层与第二控制模型第i层之间的侧向连接。


5.根据权利要求1所述的机器人控制方法,其特征在于,所述得到训练好的第一控制模型之后,还包括:
将所述训练好的第一训练...

【专利技术属性】
技术研发人员:尚伟伟隋洪建李想丛爽
申请(专利权)人:中国科学技术大学
类型:发明
国别省市:安徽;34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1