一种提升视觉观测机器人控制稳定性的方法技术

技术编号:36933265 阅读:6 留言:0更新日期:2023-03-22 18:55
本发明专利技术公开一种提升视觉观测机器人控制稳定性的方法,属机器人控制领域。方法包括:步骤1,用基于行为聚类的图像输入强化学习方式对控制视觉观测机器人的深度神经网络模型训练;步骤2,用训练好的深度神经网络模型对视觉观测机器人进行控制。本发明专利技术的方法相较于现有控制机器人的视觉强化学习方法,具有以下优点:性能鲁棒,可直接在多种干扰同时存在的环境下实现高效的表征学习,样本效率受到无关干扰的影响小。由于训练深度神经网络模型的基于行为聚类的图像输入强化学习方式引入了行为相似度量进行表征学习,不需要额外先验知识。计算高效,能在批次较小情况下稳定训练,大大减小显存占用和训练时间,提升训练效率和控制机器人稳定性。机器人稳定性。机器人稳定性。

【技术实现步骤摘要】
一种提升视觉观测机器人控制稳定性的方法


[0001]本专利技术涉及计算机视觉领域,尤其涉及一种提升视觉观测机器人控制稳定性的方法。

技术介绍

[0002]图像输入强化学习(image

based reinforcement learning)因其强大的端到端决策能力在视觉观测机器人控制中得到了广泛应用。表征学习,即将高维图像信息表征为低维向量是图像输入强化学习中的关键技术环节,常见的表征学习技术包括序列自编码器、应用数据增广、构建辅助任务等方法。但是,现有技术在实际应用中往往容易受到任务无关信息的干扰,比如背景、视角的变化,这影响了视觉观测机器人控制的准确性和稳定性。研究鲁棒高效的表征学习成为领域内的难点,其关键在于有效捕捉任务相关信息,同时滤除任务无关信息。
[0003]为了提升表征学习的鲁棒性,进而提升视觉观测机器人控制的准确性和稳定性,一类已有改进方法是对图像选用更强的数据增广来缓解训练中的过拟合,但是这往往需要对干扰类型的先验知识来选择维持语义不变的数据增广类型,而且其通常假设可获得无干扰条件的高质量数据,限制了其使用范围。另外一类已有改进方法通过选择设计无监督方法中的对比学习任务,但这往往需要构造复杂的正负样本对或者提高训练中的批次数量,目前的方法或无法保证训练视觉观测机器人得出稳定且准确的控制性能,或过于复杂,导致训练视觉观测机器人的成本过高,均无法以相对简单的方式,提升视觉观测机器人控制的准确性和稳定性。
[0004]有鉴于此,特提出本专利技术。

技术实现思路

[0005]本专利技术的目的是提供了一种提升视觉观测机器人控制稳定性的方法,能不需要先验知识和大批量的训练数据,而以基于行为聚类的相对简单方式对视觉观测机器人进行训练,实现鲁棒的表征学习,解决现有技术中训练视觉观测机器人的图像输入强化学习中表征易受到无关信息干扰造成的视觉观测机器人控制的准确性差和稳定性差的问题。
[0006]本专利技术的目的是通过以下技术方案实现的:一种提升视觉观测机器人控制稳定性的方法,包括:步骤1,采用基于行为聚类的图像输入强化学习方式对控制视觉观测机器人的深度神经网络模型进行训练;步骤2,通过基于行为聚类的图像输入强化学习方式训练好的深度神经网络模型对所述视觉观测机器人进行控制。
[0007]与现有技术相比,本专利技术所提供的基于行为聚类的图像输入强化学习方法,其有益效果包括:(1)性能鲁棒,可以直接在多种干扰同时存在的环境下实现高效的表征学习,样本
效率受到无关干扰的影响小。
[0008](2)实现简单,基于行为聚类的图像输入强化学习方式训练深度神经网络模型,能引入行为相似性度量进行表征学习,不需要额外的先验知识。
[0009](3)计算高效,可以在训练数据批次较小的情况下稳定训练,大大减小了显存占用和训练时间,提升了训练效率。
[0010]由于该方法提升了训练视觉观测机器人的图像输入强化学习的性能,进而提升了利用其控制视觉观测机器人的稳定性。
附图说明
[0011]为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
[0012]图1为本专利技术实施例提供的提升视觉观测机器人控制稳定性的方法的流程图。
[0013]图2为本专利技术实施例提供的提升视觉观测机器人控制稳定性的方法的具体流程图。
具体实施方式
[0014]下面结合本专利技术的具体内容,对本专利技术实施例中的技术方案进行清楚、完整地描述;显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例,这并不构成对本专利技术的限制。基于本专利技术的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术的保护范围。
[0015]首先对本文中可能使用的术语进行如下说明:术语“和/或”是表示两者任一或两者同时均可实现,例如,X和/或Y表示既包括“X”或“Y”的情况也包括“X和Y”的三种情况。
[0016]术语“包括”、“包含”、“含有”、“具有”或其它类似语义的描述,应被解释为非排它性的包括。例如:包括某技术特征要素(如原料、组分、成分、载体、剂型、材料、尺寸、零件、部件、机构、装置、步骤、工序、方法、反应条件、加工条件、参数、算法、信号、数据、产品或制品等),应被解释为不仅包括明确列出的某技术特征要素,还可以包括未明确列出的本领域公知的其它技术特征要素。
[0017]术语“由
……
组成”表示排除任何未明确列出的技术特征要素。若将该术语用于权利要求中,则该术语将使权利要求成为封闭式,使其不包含除明确列出的技术特征要素以外的技术特征要素,但与其相关的常规杂质除外。如果该术语只是出现在权利要求的某子句中,那么其仅限定在该子句中明确列出的要素,其他子句中所记载的要素并不被排除在整体权利要求之外。
[0018]除另有明确的规定或限定外,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如:可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本文中的具体含
义。
[0019]术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述和简化描述,而不是明示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本文的限制。
[0020]下面对本专利技术所提供的提升视觉观测机器人控制稳定性的方法进行详细描述。本专利技术实施例中未作详细描述的内容属于本领域专业技术人员公知的现有技术。本专利技术实施例中未注明具体条件者,按照本领域常规条件或制造商建议的条件进行。本专利技术实施例中所用试剂或仪器未注明生产厂商者,均为可以通过市售购买获得的常规产品。
[0021]如图1所示,本专利技术实施例提供一种提升视觉观测机器人控制稳定性的方法,包括:步骤1,采用基于行为聚类的图像输入强化学习方式对控制视觉观测机器人的深度神经网络模型进行训练;步骤2,通过基于行为聚类的图像输入强化学习方式训练好的深度神经网络模型对所述视觉观测机器人进行控制。
[0022]上述方法的步骤1中,按以下方式基于行为聚类的图像输入强化学习方式对控制视觉观测机器人的深度神经网络模型进行训练,包括:步骤11,在训练开始前,深度神经网络模型用随机策略与环境交互预定步数,获取历史视觉观测交互数据放入经验回放池中,之后从经验回放池的历史视觉观测交互数据中随机采样初始化聚类中心的奖励值;同时,初本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种提升视觉观测机器人控制稳定性的方法,其特征在于,包括:步骤1,采用基于行为聚类的图像输入强化学习方式对控制视觉观测机器人的深度神经网络模型进行训练;步骤2,通过基于行为聚类的图像输入强化学习方式训练好的深度神经网络模型对所述视觉观测机器人进行控制。2.根据权利要求1所述的提升视觉观测机器人控制稳定性的方法,其特征在于,所述步骤1中,按以下方式基于行为聚类的图像输入强化学习方式对控制视觉观测机器人的深度神经网络模型进行训练,包括:步骤11,在训练开始前,深度神经网络模型用随机策略与环境交互预定步数,获取历史视觉观测交互数据放入经验回放池中,之后从经验回放池的历史视觉观测交互数据中随机采样初始化聚类中心的奖励值;同时,初始化一个全连接神经网络作为状态转移函数,该状态转移函数的目标是给定当前状态和动作,预测下一状态的动作,该全连接神经网络的输入为视觉表征和动作,输出为与视觉表征相同维度的向量作为聚类中心向量;步骤12,训练开始后,控制机器人的深度神经网络模型交替进行环境交互和网络更新;步骤13,在环境交互环节,从环境接口获取视觉观测交互数据,通过深度神经网络模型的策略网络进行动作决策,根据动作决策选择的动作获取奖励值,并将历史视觉观测交互数据存入经验回放池;步骤14,在网络更新环节,深度神经网络模型从经验回放池的历史视觉观测交互数据中随机采样预设数量组的视觉观测交互数据,在聚类中心上投影计算各组视觉观测交互数据的预测聚类软标签,以及根据各组视觉观测交互数据与聚类中心的行为相似性计算各组视觉观测交互数据的目标聚类软标签,通过目标聚类软标签对各组视觉观测交互数据中的视觉观测状态聚类;步骤15,通过计算所述步骤13得到的预测聚类软标签与目标聚类软标签的交叉熵得到最终优化的损失函数值,对最终优化的损失函数值反向传播更新聚类中心和深度神经网络模型的视觉编码器,之后更新深度神经网络模型的价值网络和策略网络。3.根据权利要求2所述的提升视觉观测机器人控制稳定性的方法,其特征在于,所述步骤13中,深度神经网络模型按以下方式从经验回放池的历史视觉观测交互数据中随机采样预设数量组的视觉观测交互数据,在聚类中心上投影计算各组视觉观测交互数据的预测聚类软标签,以及根据各组视觉观测交互数据与聚类中心的行为相似性计算各组视觉观测交互数据的目标聚类软标签,通过目标聚类软标签对各组视觉观测交互数据中的视觉观测状态聚类,包括:步骤131,计算预测聚类软标签:从经验回放池的历史视觉观测交互数据中抽取B组视觉观测交互数据{o,a,r,o'},a表示动作,r表示奖励值,o和o'为每个视觉观测状态,将每组视觉观测交互数据的各视觉观测状态o和o'分别编码为隐状态z和z',将各组视觉观测交互数据的隐状态z分别投影到K个聚类中心c上得到各组视觉观测交互数据的投影值,对各投影值进行温度参数为τ的 softmax 归一化操作得到预测聚类软标签p
i

;步骤132,计算目标聚类软标签:通过以下行为相似性公式逐对近似计算B组视觉观测交互数据的隐状态z
i
与K个聚类中心c
j
的行为相似性d
ij
,所述行为相似性公式为:其中,r
i

【专利技术属性】
技术研发人员:王杰吴枫李斌刘骐源周祺杨睿
申请(专利权)人:中国科学技术大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1