【技术实现步骤摘要】
机器人异构操作技能的迁移学习方法、装置及存储介质
[0001]本公开涉及机器人领域,特别涉及面向3C装配的机器人异构操作技能的迁移学习方法、装置及存储介质。
技术介绍
[0002]3C(3C是计算机(Computer)、通信(Communication)和消费类电子产品(Consumer Electronics)的统称)装配产业规模大,并已成为现阶段的重要支柱产业。由于劳动力日益短缺导致企业生产用工成本高昂,当前机器人逐渐被广泛应用于3C装配产业。然而,3C装配产业具有产品种类繁多、新产品更新速度快等特点,机器人需要经常执行不同的装配任务。但由于各种装配任务之间因装配物体的种类不同或因使用的机器人构型不同,导致执行装配操作的机器人所需策略的输入状态向量或输出动作向量的维度不同使技能形式存在异构差异,致使机器人基于某种装配任务训练的操作技能不能直接应用于到其它装配任务中。迁移学习作为人工智能领域的一种快速学习技术可以将已有任务的操作技能快速学习泛化到新的操作任务。为此,结合机器人技术和人工智能领域的迁移学习技术,实现对机器人异 ...
【技术保护点】
【技术特征摘要】
1.一种机器人异构操作技能的迁移学习方法,其特征在于,包括:设置面向3C装配的机器人异构操作技能迁移学习的预训练任务,基于强化学习方法实现源域中机器人和目标域中机器人对相同预训练任务的技能策略学习,分别得到源域机器人预训练任务技能策略和目标域机器人预训练任务技能策略;在预训练任务操作环境中,分别执行所述源域机器人预训练任务技能策略和所述目标域机器人预训练任务技能策略,并记录源域机器人状态和目标域机器人状态,得到交互训练数据;构建源域机器人自编码器和目标域机器人自编码器,各机器人的自编码器均分别包含编码器和解码器,基于所述交互训练数据采用对比学习方法并融合域随机化方法同时对所述源域机器人自编码器和所述目标域机器人自编码器进行训练,得到训练完毕的源域编码器和目标域编码器,以分别将所述源域机器人状态和所述目标域机器人状态映射到共同特征域空间;构建源域机器人技能策略神经网络和目标域机器人技能策略神经网络,基于执行目标3C装配任务的示教数据和行为克隆的模仿学习方法对所述源域机器人技能策略神经网络进行训练,得到源域机器人在目标3C装配任务上的技能策略,利用所述训练完毕的源域编码器和目标域编码器构建迁移奖励函数,基于强化学习方法,通过最大化目标3C装配任务奖励函数与所述迁移奖励函数的和的方式对所述目标域机器人技能策略神经网络进行训练,将所述源域机器人在目标3C装配任务上的技能策略迁移到目标域机器人上。2.根据权利要求1所述的迁移学习方法,其特征在于,所述异构操作技能是由于所述源域机器人和所述目标域机器人的构型不同或所述源域机器人和所述目标域机器人所装配的物体种类不同,导致所述源域机器人和所述目标域机器人执行各自任务所需技能策略的输入状态向量的维度或输出动作向量的维度不同而使技能形式存在差异。3.根据权利要求1所述的迁移学习方法,其特征在于,所述预训练任务为针对3C零部件的操作任务。4.根据权利要求1所述的迁移学习方法,其特征在于,所述源域机器人预训练任务技能策略和所述目标域机器人预训练任务技能策略按照以下步骤得到:构建源域机器人预训练任务技能策略神经网络和目标域机器人预训练任务技能策略神经网络;所述源域机器人预训练任务技能策略神经网络的输入为2M+18维的状态向量输出为7维的动作向量a
S
,所述状态向量包含源域机器人M个关节对应的角度与角速度、源域机器人末端执行器的6维位姿与其对应的速度以及所要装配的3C零部件的空间6维位置和姿态,所述动作向量a
S
的前6维用于控制源域机器人末端执行器的6维位置和姿态,第7维用于控制源域机器人末端执行器的开合;所述目标域机器人预训练任务技能策略神经网络的输入为2L+18维的状态向量输出为7维的动作向量a
T
,所述状态向量包含目标域中机器人L个关节对应的角度与角速度、目标域机器人末端执行器的6维位姿与其对应的速度以及所要配装的3C零部件的空间6维位置和姿态,所述动作向量a
T
的前6维用于控制目标域机器人末端执行器的6维位置和姿态,第7维用于控制目标域机器人末端执行器的开合;采用强化学习方法对随机初始化的所述源域机器人预训练任务技能策略神经网络和所述目标域机器人预训练任务技能策略神经网络分别在共同的预训练任务中进行学习,得
到训练完毕的源域机器人预训练任务技能策略和目标域机器人预训练任务技能策略。5.根据权利要求1所述的迁移学习方法,其特征在于,所述交互训练数据包括使源域机器人和目标域机器人分别执行若干次生成的所述源域机器人预训练任务技能策略和所述目标域机器人预训练任务技能策略,记录所述源域机器人预训练任务技能策略执行过程中每个时间步t对应的2M+12维的源域机器人状态向量和采集的源域机器人所在工作场景的图像以及所述目标域机器人预训练任务技能策略执行过程中每个时间步t对应的2L+12维的目标域机器人状态向量和采集的目标域机器人所在工作场景的图像所述源域机器人状态向量包含源域机器人M个关节对应的角度与角速度、以及源域机器人末端执行器的6维位姿与其对应的速度,所述目标域机器人状态向量包含目标域中机器人L个关节对应的角度与角速度、以及目标域机器人末端执行器的6维位姿与其对应的速度。6.根据权利要求5所述的迁移学习方法,其特征在于,设所述源域机器人自编码器为AE
S
,由源域编码器f与源域解码器D
S
构成,所述源域编码器f的输入为由所述源域机器人状态向量和所述图像构成的源域状态s
S
,输出源域隐空间状态特征至所述源域解码器D
S
中,得到源域预测状态设所述目标域机器人自编码器为AE
T
,由目标域编码器g与目标域解码器D
T
构成,所述目标域编码器g的输入为由所述目标域机器人状态向量和所述图像构成的目...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。