【技术实现步骤摘要】
基于视觉的机器人的控制方法、设备及存储介质
[0001]本专利技术涉及视觉辅助控制领域,尤其涉及一种基于视觉的机器人的控制方法、设备及存储介质。
技术介绍
[0002]视觉强化学习(visual reinforcement learning)算法在机器人控制、游戏智能等领域取得了巨大的成功,它是一种直接以高维视觉作为输入的强化学习算法,旨在处理具有高维感知数据的复杂的控制任务。以经典的深度Q网络(deep Q
‑
network,DQN)算法为例,它使用原始图像作为输入,结合深度神经网络构建端到端的训练模型,并在49种Atari游戏上取得了优异的性能。此外,一些现有的视觉强化学习算法,例如IMPALA算法和QT
‑
Opt算法,分别在解决基于视觉的多任务学习和基于视觉的机器人抓取问题上取到了较好的成果。
[0003]然而,尽管这些方法在训练环境中表现良好,但它们训练得到的策略难以被推广到新的环境中。这是因为输入图像中常包含许多和决策任务无关的视觉因素,如图像的背景、图像的拍摄角度、障碍物的颜色等。当将机器人放入一个新环境,仅更改这些无关视觉因素,虽然从决策层面来看,环境的实际意义是相同的(或称为语义上等价),但从数据层面上看,机器人观测到的环境分布会因为这些视觉因素的微小变化而发生较大的偏移。这将导致机器人识别不出其原先所学习到的任务相关信息,从而限制了它的泛化能力。现有的视觉强化算法能在单个环境下训练得到最优策略,但如果将这些策略应用于其他的相似环境,其性能表现通常会很差。< ...
【技术保护点】
【技术特征摘要】
1.一种基于视觉的机器人的控制方法,其特征在于,包括:步骤1,通过与机器人通信连接的摄像头按预设时间间隔获取多张包含机器人和环境的图像,将获取的多张图像通过强化学习帧栈堆叠得到用于后续控制的输入图像数据;步骤2,使用训练好的卷积特征编码器对所述步骤1中得到的输入图像数据进行编码,得到一个50维的向量即为T
‑
级奖励序列表征数据;步骤3,使用训练好的多层感知决策模型将所述步骤2中得到的T
‑
级奖励序列表征数据映射为一个最优动作,使所述机器人执行该最优动作来对该机器人进行最优控制。2.根据权利要求1所述的基于视觉的机器人的控制方法,其特征在于,所述步骤1中,与机器人通信连接的摄像头包括:机器人内部设置的摄像头和机器人周边的外部摄像头;所述预设时间间隔为1秒;多张包含机器人和环境的图像为三张图像。3.根据权利要求1或2所述的基于视觉的机器人的控制方法,其特征在于,所述方法中,预先按以下方式对卷积特征编码器和多层感知决策模型进行训练,得到预先训练好的卷积特征编码器和多层感知决策模型,先收集训练启动用的不少于256个输入图像样本、决策动作数据和奖励数据,并按数据收集的时间先后顺序存放在强化学习通用的经验回放池中,训练过程包括以下步骤:步骤21,通过与机器人通信连接的内部摄像头和周边的外部摄像头,获取包含机器人和环境的三张图像,将获取的三张图像通过强化学习帧栈堆叠处理为一个输入图像样本;步骤22,通过作为卷积特征编码器的卷积神经网络,对所述步骤21中获得的输入图像样本进行编码得到相应的输出表征数据,再以作为多层感知决策模型的多层感知机将所述卷积特征编码器的输出表征数据映射为具体控制机器人行为的决策动作数据,然后按机器人具体控制任务使用该机器人对应的通用奖励函数计算所述输入图像样本和决策动作数据对应的奖励数据;步骤23,将所述步骤21、22收集的输入图像样本、决策动作数据和奖励数据按数据收集的时间先后顺序存放在经验回放池中;步骤24,从经验回放池存储的数据中取出256个输入图像样本、256个决策动作数据和256个奖励数据作为一个批数据,将该批数据里的奖励数据依据数据收集的时间先后顺序排列成整体奖励序列,按预设时长T将整体奖励序列分为多个奖励序列段,多个奖励序列段作为一个批次的奖励序列段,将一个批次的奖励序列段中的每个奖励序列段看作随机变量,通过随机变量的特征函数公式以采样的方式计算出一个批次的奖励序列的特征函数采样值,每个奖励序列段计算不少于64次,得到不少于64个批次的特征函数采样值;步骤25,以卷积特征编码器对批数据中的输入图像样本的编码作为双头特征函数预测器的输入,以对不少于64个批次的特征函数采样值的预测值作为该双头特征函数预测器的输出,利用所述步骤23中的批数据和得到的不少于64个批次的特征函数采样值对双头特征函数预测器进行训练,在所述双头特征函数预测器训练过程中优化更新卷积特征编码器,使优化更新的卷积特征编码器能编码出机器人控制任务所需要的T
‑
级奖励序列表征数据;步骤26,用所述步骤24优化更新的卷积特征编码器将所述步骤23的批数据中的输入图像样本编码为T
‑
级奖励序列表征数据,再用传统强化学习中的策略评估和策略提升以所述T
‑
级奖励序列表征数据为输入,训练更新多层感知决策模型;
步骤27,重复所述步骤21至27的操作,直到经验回放池中的数据量超出预设的训练结束数据量后结束训练。4.根据权利要求3所述的基于视觉的机器人的控制方法,其特征在于,所述方法中,训练开始前,按以下方式收集训练启动用的不少于256个输入图像样本、决策动作数据和奖励数据,并按数据收集的时间先后顺序存放在强化学习通用的经验回放池中,包括:步骤201,通过与机器人通信连接的内部摄像头和周边的外部摄像头,获取包含机器人和环境的三张图像,将获取的三张图像通过强化学习帧栈堆叠处理为一个输入图像样本;步骤202,使用初...
【专利技术属性】
技术研发人员:王杰,李斌,杨睿,耿子介,叶鸣轩,吴枫,
申请(专利权)人:中国科学技术大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。