一种提升视觉观测机器人控制稳定性的方法技术

技术编号：36933265 阅读：6 留言：0更新日期：2023-03-22 18:55

本发明专利技术公开一种提升视觉观测机器人控制稳定性的方法，属机器人控制领域。方法包括：步骤1，用基于行为聚类的图像输入强化学习方式对控制视觉观测机器人的深度神经网络模型训练；步骤2，用训练好的深度神经网络模型对视觉观测机器人进行控制。本发明专利技术的方法相较于现有控制机器人的视觉强化学习方法，具有以下优点：性能鲁棒，可直接在多种干扰同时存在的环境下实现高效的表征学习，样本效率受到无关干扰的影响小。由于训练深度神经网络模型的基于行为聚类的图像输入强化学习方式引入了行为相似度量进行表征学习，不需要额外先验知识。计算高效，能在批次较小情况下稳定训练，大大减小显存占用和训练时间，提升训练效率和控制机器人稳定性。机器人稳定性。机器人稳定性。

全部详细技术资料下载

【技术实现步骤摘要】
一种提升视觉观测机器人控制稳定性的方法

[0001]本专利技术涉及计算机视觉领域，尤其涉及一种提升视觉观测机器人控制稳定性的方法。

技术介绍

[0002]图像输入强化学习(image
‑
based reinforcement learning)因其强大的端到端决策能力在视觉观测机器人控制中得到了广泛应用。表征学习，即将高维图像信息表征为低维向量是图像输入强化学习中的关键技术环节，常见的表征学习技术包括序列自编码器、应用数据增广、构建辅助任务等方法。但是，现有技术在实际应用中往往容易受到任务无关信息的干扰，比如背景、视角的变化，这影响了视觉观测机器人控制的准确性和稳定性。研究鲁棒高效的表征学习成为领域内的难点，其关键在于有效捕捉任务相关信息，同时滤除任务无关信息。
[0003]为了提升表征学习的鲁棒性，进而提升视觉观测机器人控制的准确性和稳定性，一类已有改进方法是对图像选用更强的数据增广来缓解训练中的过拟合，但是这往往需要对干扰类型的先验知识来选择维持语义不变的数据增广类型，而且其通常假设可获得无干扰条件的高质量数据，限制了其使用范围。另外一类已有改进方法通过选择设计无监督方法中的对比学习任务，但这往往需要构造复杂的正负样本对或者提高训练中的批次数量，目前的方法或无法保证训练视觉观测机器人得出稳定且准确的控制性能，或过于复杂，导致训练视觉观测机器人的成本过高，均无法以相对简单的方式，提升视觉观测机器人控制的准确性和稳定性。
[0004]有鉴于此，特提出本专利技术。

技术实现思路
...

【技术保护点】

【技术特征摘要】
1.一种提升视觉观测机器人控制稳定性的方法，其特征在于，包括：步骤1，采用基于行为聚类的图像输入强化学习方式对控制视觉观测机器人的深度神经网络模型进行训练；步骤2，通过基于行为聚类的图像输入强化学习方式训练好的深度神经网络模型对所述视觉观测机器人进行控制。2.根据权利要求1所述的提升视觉观测机器人控制稳定性的方法，其特征在于，所述步骤1中，按以下方式基于行为聚类的图像输入强化学习方式对控制视觉观测机器人的深度神经网络模型进行训练，包括：步骤11，在训练开始前，深度神经网络模型用随机策略与环境交互预定步数，获取历史视觉观测交互数据放入经验回放池中，之后从经验回放池的历史视觉观测交互数据中随机采样初始化聚类中心的奖励值；同时，初始化一个全连接神经网络作为状态转移函数，该状态转移函数的目标是给定当前状态和动作，预测下一状态的动作，该全连接神经网络的输入为视觉表征和动作，输出为与视觉表征相同维度的向量作为聚类中心向量；步骤12，训练开始后，控制机器人的深度神经网络模型交替进行环境交互和网络更新；步骤13，在环境交互环节，从环境接口获取视觉观测交互数据，通过深度神经网络模型的策略网络进行动作决策，根据动作决策选择的动作获取奖励值，并将历史视觉观测交互数据存入经验回放池；步骤14，在网络更新环节，深度神经网络模型从经验回放池的历史视觉观测交互数据中随机采样预设数量组的视觉观测交互数据，在聚类中心上投影计算各组视觉观测交互数据的预测聚类软标签，以及根据各组视觉观测交互数据与聚类中心的行为相似性计算各组视觉观测交互数据的目标聚类软标签，通过目标聚类软标签对各组视觉观测交互数据中的视觉观测状态聚类；步骤15，通过计算所述步骤13得到的预测聚类软标签与目标聚类软标签的交叉熵得到最终优化的损失函数值，对最终优化的损失函数值反向传播更新聚类中心和深度神经网络模型的视觉编码器，之后更新深度神经网络模型的价值网络和策略网络。3.根据权利要求2所述的提升视觉观测机器人控制稳定性的方法，其特征在于，所述步骤13中，深度神经网络模型按以下方式从经验回放池的历史视觉观测交互数据中随机采样预设数量组的视觉观测交互数据，在聚类中心上投影计算各组视觉观测交互数据的预测聚类软标签，以及根据各组视觉观测交互数据与聚类中心的行为相似性计算各组视觉观测交互数据的目标聚类软标签，通过目标聚类软标签对各组视觉观测交互数据中的视觉观测状态聚类，包括：步骤131，计算预测聚类软标签：从经验回放池的历史视觉观测交互数据中抽取B组视觉观测交互数据{o,a,r,o'}，a表示动作，r表示奖励值，o和o'为每个视觉观测状态，将每组视觉观测交互数据的各视觉观测状态o和o'分别编码为隐状态z和z'，将各组视觉观测交互数据的隐状态z分别投影到K个聚类中心c上得到各组视觉观测交互数据的投影值，对各投影值进行温度参数为τ的 softmax 归一化操作得到预测聚类软标签p
i
：
；步骤132，计算目标聚类软标签：通过以下行为相似性公式逐对近似计算B组视觉观测交互数据的隐状态z
i
与K个聚类中心c
j
的行为相似性d
ij
，所述行为相似性公式为：其中，r
i

【专利技术属性】
技术研发人员：王杰，吴枫，李斌，刘骐源，周祺，杨睿，
申请(专利权)人：中国科学技术大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人