基于视觉的机器人的控制方法、设备及存储介质技术

技术编号:34353483 阅读:20 留言:0更新日期:2022-07-31 06:08
本发明专利技术公开了一种基于视觉的机器人的控制方法、设备及存储介质,该方法包括:步骤1,通过与机器人通信连接的摄像头按预设时间间隔获取多张包含机器人和环境的图像,将获取的多张图像通过强化学习帧栈堆叠得到用于后续控制的输入图像数据;步骤2,使用训练好的卷积特征编码器对步骤1中得到的输入图像数据进行编码,得到一个50维的向量即为T

Control method, equipment and storage medium of robot based on vision

【技术实现步骤摘要】
基于视觉的机器人的控制方法、设备及存储介质


[0001]本专利技术涉及视觉辅助控制领域,尤其涉及一种基于视觉的机器人的控制方法、设备及存储介质。

技术介绍

[0002]视觉强化学习(visual reinforcement learning)算法在机器人控制、游戏智能等领域取得了巨大的成功,它是一种直接以高维视觉作为输入的强化学习算法,旨在处理具有高维感知数据的复杂的控制任务。以经典的深度Q网络(deep Q

network,DQN)算法为例,它使用原始图像作为输入,结合深度神经网络构建端到端的训练模型,并在49种Atari游戏上取得了优异的性能。此外,一些现有的视觉强化学习算法,例如IMPALA算法和QT

Opt算法,分别在解决基于视觉的多任务学习和基于视觉的机器人抓取问题上取到了较好的成果。
[0003]然而,尽管这些方法在训练环境中表现良好,但它们训练得到的策略难以被推广到新的环境中。这是因为输入图像中常包含许多和决策任务无关的视觉因素,如图像的背景、图像的拍摄角度、障碍物的颜色等。当将机器人放入一个新环境,仅更改这些无关视觉因素,虽然从决策层面来看,环境的实际意义是相同的(或称为语义上等价),但从数据层面上看,机器人观测到的环境分布会因为这些视觉因素的微小变化而发生较大的偏移。这将导致机器人识别不出其原先所学习到的任务相关信息,从而限制了它的泛化能力。现有的视觉强化算法能在单个环境下训练得到最优策略,但如果将这些策略应用于其他的相似环境,其性能表现通常会很差。<br/>[0004]为了提高泛化性能,研究者们将目光投向于表征学习,希望训练出的表征只编码图像输入中与任务相关的特征,而摒弃那些由视觉因素引起的任务无关信息,以使得基于所学表征优化得到的机器人具备较强的泛化能力。为了达到该目的,一些研究者提出了相似性度量(similarity metrics),通过该度量方式判断出语义上等价的图像,通过让这些图像的表征相似来辅助表征学习。另一些研究者利用马尔科夫决策过程的特有属性(例如奖励、概率转移函数等)来设计辅助任务,从而学习出不受无关视觉因素干扰的不变表征。现有的这些方法在学习表征的过程中,都利用到了奖励函数和概率转移函数来获得任务相关的特征。
[0005]然而,进行机器人控制的视觉强化学习任务中无法获取到强化学习中常用的状态(任务相关且有语义的向量数据)的概率转移函数,于是现有方法使用能获取到的观测数据(图像数据)的转移函数作为替代。但是,由于观测转移函数表示着前一时刻的输入图像到下一时刻的输入图像的转移概率,不仅包含了机器人的状态转移概率,也包含了无关视觉因素的转移概率。因此,使用观测转移函数进行表征学习可能会错误的学到由视觉干扰引起的任务无关信息,导致学得的表征质量下降,无法保证基于视觉控制机器人的视觉抗干扰性能。
[0006]有鉴于此,特提出本专利技术。

技术实现思路

[0007]本专利技术的目的是提供了一种基于视觉的机器人的控制方法,能提升基于视觉控制机器人的抗未知视觉干扰性能,提升控制的准确性,进而解决现有技术中存在的上述技术问题。
[0008]本专利技术的目的是通过以下技术方案实现的:
[0009]本专利技术实施方式提供一种基于视觉的机器人的控制方法,包括:
[0010]步骤1,通过与机器人通信连接的摄像头按预设时间间隔获取多张包含机器人和环境的图像,将获取的多张图像通过强化学习帧栈堆叠得到用于后续控制的输入图像数据;
[0011]步骤2,使用训练好的卷积特征编码器对所述步骤1中得到的输入图像数据进行编码,得到一个50维的向量即为T

级奖励序列表征数据;
[0012]步骤3,使用训练好的多层感知决策模型将所述步骤2中得到的T

级奖励序列表征数据映射为一个最优动作,使所述机器人执行该最优动作来对该机器人进行最优控制。
[0013]本专利技术实施方式还提供一种控制设备,包括:
[0014]至少一个存储器,用于存储一个或多个程序;
[0015]至少一个处理器,能执行所述存储器所存储的一个或多个程序,在一个或多个程序被处理器执行时,使得所述处理器能实现本专利技术所述的方法。
[0016]本专利技术实施方式进一步提供一种可读存储介质,存储有计算机程序,当计算机程序被处理器执行时能实现本专利技术所述的方法。
[0017]与现有技术相比,本专利技术所提供的基于视觉的机器人的控制方法、设备及存储介质,其有益效果包括:
[0018]通过将多张图像通过强化学习帧栈堆叠得到用于后续控制的输入图像数据,再通过训练好的卷积特征编码器将输入图像数据编码成T

级奖励序列表征数据,利用训练好的多层感知决策模型将所述步骤2中得到的T

级奖励序列表征数据映射为一个最优动作,进而利用该最优动作实现机器人的最优控制;由于编码得到的T

级奖励序列表征数据不包含无关视觉因素的转移概率,在提取表征的过程中不再受干扰于观测转移函数引入的任务无关信息,提升了基于视觉控制机器人的抗未知视觉干扰性能。
附图说明
[0019]为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
[0020]图1为本专利技术实施例提供的基于视觉机器人的控制方法的流程图。
[0021]图2为本专利技术实施例提供的基于视觉机器人的控制方法的卷积特征编码器、多层感知决策模型和双头特征函数预测器的构成示意图。
[0022]图3为本专利技术实施例提供的基于视觉机器人的控制方法的仿真实验示意图;其中,(a)为容器机器人完成碗抓球控制任务的示意图;(b)为平衡车机器人完成摇杆控制任务的示意图;(c)为猎豹机器人完成向前奔跑控制任务的示意图;(d)为二维手指机器人完成转
动平衡杆控制任务的示意图;(e)为二维双连杆机器人完成机械杆移动控制任务的示意图;(f)为二足人形机器人完成向前奔跑控制任务的示意图。
[0023]图4、图5、图6为本专利技术实施例提供的基于视觉机器人的控制方法的在动态背景干扰下控制仿真机器人与现有控制方法的训练效果对比曲线图;其中,图4(a)为容器机器人完成碗抓球控制任务的训练次数对比曲线图;图4(b)为平衡车机器人完成摇杆控制任务的训练次数对比曲线图;图5(a)为猎豹机器人完成向前奔跑控制任务的训练次数对比曲线图;图5(b)为二维手指机器人完成转动平衡杆控制任务的训练次数对比曲线图;图6(a)为二维双连杆机器人完成机械杆移动控制任务的训练次数对比曲线图;图6(b)为二足人形机器人完成向前奔跑控制任务的训练次数对比曲线图。
[0024]图7、图8、图9为本专利技术实施例提供的基于视觉机器人的控制方法动态色彩干扰下控制仿真机器人与现有控制方法的训练效果对比本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于视觉的机器人的控制方法,其特征在于,包括:步骤1,通过与机器人通信连接的摄像头按预设时间间隔获取多张包含机器人和环境的图像,将获取的多张图像通过强化学习帧栈堆叠得到用于后续控制的输入图像数据;步骤2,使用训练好的卷积特征编码器对所述步骤1中得到的输入图像数据进行编码,得到一个50维的向量即为T

级奖励序列表征数据;步骤3,使用训练好的多层感知决策模型将所述步骤2中得到的T

级奖励序列表征数据映射为一个最优动作,使所述机器人执行该最优动作来对该机器人进行最优控制。2.根据权利要求1所述的基于视觉的机器人的控制方法,其特征在于,所述步骤1中,与机器人通信连接的摄像头包括:机器人内部设置的摄像头和机器人周边的外部摄像头;所述预设时间间隔为1秒;多张包含机器人和环境的图像为三张图像。3.根据权利要求1或2所述的基于视觉的机器人的控制方法,其特征在于,所述方法中,预先按以下方式对卷积特征编码器和多层感知决策模型进行训练,得到预先训练好的卷积特征编码器和多层感知决策模型,先收集训练启动用的不少于256个输入图像样本、决策动作数据和奖励数据,并按数据收集的时间先后顺序存放在强化学习通用的经验回放池中,训练过程包括以下步骤:步骤21,通过与机器人通信连接的内部摄像头和周边的外部摄像头,获取包含机器人和环境的三张图像,将获取的三张图像通过强化学习帧栈堆叠处理为一个输入图像样本;步骤22,通过作为卷积特征编码器的卷积神经网络,对所述步骤21中获得的输入图像样本进行编码得到相应的输出表征数据,再以作为多层感知决策模型的多层感知机将所述卷积特征编码器的输出表征数据映射为具体控制机器人行为的决策动作数据,然后按机器人具体控制任务使用该机器人对应的通用奖励函数计算所述输入图像样本和决策动作数据对应的奖励数据;步骤23,将所述步骤21、22收集的输入图像样本、决策动作数据和奖励数据按数据收集的时间先后顺序存放在经验回放池中;步骤24,从经验回放池存储的数据中取出256个输入图像样本、256个决策动作数据和256个奖励数据作为一个批数据,将该批数据里的奖励数据依据数据收集的时间先后顺序排列成整体奖励序列,按预设时长T将整体奖励序列分为多个奖励序列段,多个奖励序列段作为一个批次的奖励序列段,将一个批次的奖励序列段中的每个奖励序列段看作随机变量,通过随机变量的特征函数公式以采样的方式计算出一个批次的奖励序列的特征函数采样值,每个奖励序列段计算不少于64次,得到不少于64个批次的特征函数采样值;步骤25,以卷积特征编码器对批数据中的输入图像样本的编码作为双头特征函数预测器的输入,以对不少于64个批次的特征函数采样值的预测值作为该双头特征函数预测器的输出,利用所述步骤23中的批数据和得到的不少于64个批次的特征函数采样值对双头特征函数预测器进行训练,在所述双头特征函数预测器训练过程中优化更新卷积特征编码器,使优化更新的卷积特征编码器能编码出机器人控制任务所需要的T

级奖励序列表征数据;步骤26,用所述步骤24优化更新的卷积特征编码器将所述步骤23的批数据中的输入图像样本编码为T

级奖励序列表征数据,再用传统强化学习中的策略评估和策略提升以所述T

级奖励序列表征数据为输入,训练更新多层感知决策模型;
步骤27,重复所述步骤21至27的操作,直到经验回放池中的数据量超出预设的训练结束数据量后结束训练。4.根据权利要求3所述的基于视觉的机器人的控制方法,其特征在于,所述方法中,训练开始前,按以下方式收集训练启动用的不少于256个输入图像样本、决策动作数据和奖励数据,并按数据收集的时间先后顺序存放在强化学习通用的经验回放池中,包括:步骤201,通过与机器人通信连接的内部摄像头和周边的外部摄像头,获取包含机器人和环境的三张图像,将获取的三张图像通过强化学习帧栈堆叠处理为一个输入图像样本;步骤202,使用初...

【专利技术属性】
技术研发人员:王杰李斌杨睿耿子介叶鸣轩吴枫
申请(专利权)人:中国科学技术大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1