机器人控制系统和用于训练所述机器人控制系统的方法技术方案

技术编号:34165733 阅读:13 留言:0更新日期:2022-07-17 09:31
本发明专利技术提供了一种机器人控制系统(10)和一种用于训练该机器人控制系统的方法。所公开的实施例通过由常规反馈控制器(18)和RL控制器(22)生成的相应控制信号(20、24)之间的动态自适应交互来对强化学习(RL)和常规控制进行适度的混合利用。此外,所公开的实施例通过有效使用与真实世界传感器和执行器数据(54)交织的虚拟传感器和执行器数据(60)来利用用于训练控制策略的迭代方法。这对于减少训练样本量以满足用于常规反馈控制器和强化学习控制器的混合控制策略是有效的。所公开的实施例能够用在各种各样工业自动化应用中。够用在各种各样工业自动化应用中。够用在各种各样工业自动化应用中。

【技术实现步骤摘要】
【国外来华专利技术】机器人控制系统和用于训练所述机器人控制系统的方法
[0001]所公开的实施例总体涉及工业自动化和控制领域,且更具体地涉及控制技术,该控制技术涉及强化学习和常规反馈控制技术的自适应加权组合,甚至更具体地涉及适合于工业强化学习的机器人控制系统和方法。
[0002]常规反馈控制技术(能够在本公开中通篇被称为“常规控制”)能够解决各种类型的控制问题(诸如但不限于:机器人控制、自主工业自动化等),这种常规控制通常是通过非常有效地捕获具有显式模型的底层物理结构来完成的。在一个实例应用中,这能够涉及用于控制给定机器人的轨迹所涉及的身体运动方程的明确定义。然而,将理解的是,现代制造业中的许多控制问题能够涉及与对象的各种物理交互,诸如能够涉及但不限于与一个或多个对象的接触、撞击和/或摩擦。这些物理交互往往更难以利用一阶物理模型来捕捉。因此,将常规控制技术应用于这些情形中常常能够导致控制器脆弱且不准确,例如,这些控制器必须进行手动调谐才能用于部署。这增加了成本,并且能够增加用于机器人部署所涉及的时间。
[0003]强化学习(RL)技术已被证明能够学习涉及与物理环境交互的连续机器人控制器。然而,在RL技术(特别是涉及非常具有表现力的函数近似器的深度RL技术的那些技术)中通常遇到的缺点能够是繁重且耗时的探索行为,以及能够涉及的实质性样本效率低下,诸如在从头开始学习控制策略时通常是这种情况。
[0004]对于能够将整体控制策略分解为由常规控制技术解决的控制部分和利用RL解决的剩余控制部分的控制技术的实例,参见以下技术论文,分别为:于2018年12月18日由T.Johannink,S.Bahl,A.Nair,J.Luo,A.Kumar,M.Loskyll,J.Aparicio Ojea,E.Solowjow和S.Levine发表在arXiv:1812.03201v2[cs.RO]上的标题为“Residual Reinforcement Learning for Robot Control(用于机器人控制的剩余强化学习)”;以及于2019年1月3日由T.Silver,K.Allen,J.Tenenbaum和L.Kaelbling发表在arXiv:1812.06298v2[cs.RO]上的“Residual Policy Learning(剩余策略学习)”。
[0005]将理解的是,上述引用的论文中描述的方法对于广泛且具成本效益的工业适用性来说可能有些局限,因为例如,从头开始的强化学习往往仍然是实质性数据效率低下和/或棘手的。
[0006]图1示出了所公开的机器人控制系统的一个非限制性实施例的框图,该机器人控制系统能够用于对机器人系统的控制且能够涉及例如能够用在涉及自主控制的工业应用中的一个或多个机器人。
[0007]图2示出了所公开的机器学习框架的一个非限制性实施例的框图,该框架能够用于有效地训练所公开的机器人控制系统。
[0008]图3示出了所公开的用于训练所公开的机器人控制系统的方法论的一个非限制性实施例的流程图。
[0009]图4至图7分别示出了与所公开的用于训练所公开的机器人控制系统的方法论相结合的进一步的非限制性细节。
[0010]本专利技术人已经认识到,虽然将强化学习(RL)与常规控制组合的基本想法似乎非常
有前景,但在本公开中公开的各种革新概念之前,工业环境中的实际实施方案仍然难以捉摸,因为在典型的现有技术实施中,各种重要的技术实施困难还没有完全解决。通过所公开的实施例解决的一些困难列举如下:
[0011]‑
适当地同步两种控制技术,使它们不会相互抵消,
[0012]‑
对所涉及的传统控制法则进行适当的选择和调整,
[0013]‑
系统地结合模拟经验和真实世界经验来在模拟器中训练控制策略,从而例如减少所需的样本量。
[0014]至少鉴于上述考虑,所公开的实施例实现了与某些涉及RL的已知方法相结合的适当改进(例如,见上文引用的两篇技术论文)。相信所公开的实施例将实现与常规控制集成的RL的实用且具成本效益的工业部署。所公开的控制方法能够在本公开中通篇被称为工业剩余强化学习(IRRL)。
[0015]本专利技术人提出了各种革新的技术特征,用以基本上改进至少某些涉及RL的已知方法。以下两个公开的非限制性概念(被指示为概念I)和概念II))构成了IRRL的基础:
[0016]概念I)
[0017]在常规的剩余RL技术中,手动设计的控制器能够涉及死板的控制策略,并且因此,不能轻易地适应动态变化的环境,正如本领域技术人员所理解的那样,这是在此环境中进行有效操作的实质性缺点。例如,在能够涉及随机定位的对象的对象插入应用中,常规控制器能够是位置控制器。剩余RL控制部分随后能够增强控制器以用于改进整体性能。例如,如果位置控制器过快地执行给定插入(例如,插入速度过高),则剩余RL部分不能及时推断出任何有意义的影响。例如,其不能动态地改变位置控制器。相反,在实际应用中,剩余控制部分应该能够适当地影响(例如,有益地反对)由常规控制器生成的控制信号。例如,如果由位置控制器产生的速度过高,那么剩余RL部分应能够影响由常规控制器生成的控制信号,以降低此高速度。为了解决这个基本问题,本专利技术人提出了由传统控制器和RL生成的相应控制信号之间的自适应交互。原则上,一方面,最初的常规控制器应该是引导部分,而不是RL部分的反对者,并且,另一方面,RL部分应能够适当地适应常规控制器。
[0018]所公开的自适应交互能够如下所述。首先,来自两个控制策略(即,常规控制和RL控制)的相应控制信号能够就其正交性而言进行比较,例如通过计算其内积。对同一投射控制“方向”的信号贡献能够在奖励函数中受到惩罚。这就避免了两个控制部分的相互“斗争”。同时,所公开的算法能够监控剩余RL部分是否具有试图与常规控制器斗争的分量,这能够是常规控制器不足以执行给定控制任务的指示。然后,该指示能够用于修改常规控制法则,这能够自动实施或通过手动调整来实施。
[0019]其次,代替常规剩余RL控制策略中通常采用的恒定权重,本专利技术人创新性地提出了可调权重。非限制性地,权重调整能够由控制信号对满足奖励函数的相应贡献来控制。权重成为奖励的函数。这应实现非常有效的学习和顺利的执行。RL控制部分能够取决于它已经学会的程度而被引导。这背后的基本原理是,只要RL控制部分至少与初始手动设计的控制器具有同等水平,原则上就不再需要手动设计的控制器并且能够部分将其关闭。然而,每当RL控制部分对于给定控制任务提供了较差的性能时,初始手动设计的控制器仍然能够贡献控制信号。这种混合是由可调权重来适度调节的。类似的简化概念是“自行车支撑训练轮”,它在学习期间能是必不可少的,但在学习结束之后也能够提供支持,至少在具有困难
性的情形期间,例如在急转弯骑得太快时。
[0020]概念II)
[0021]用于在模拟中训练剩余RL的已知方法通常都有击中击不中变换(hit

or

miss)本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种机器人控制系统10,包括:一组传感器12,所述组传感器可操作地耦合到由所述机器人控制系统控制的机器人;和控制器16,所述控制器响应于来自所述组传感器的信号,所述控制器包括:常规反馈控制器18,所述常规反馈控制器被配置用于生成常规反馈控制信号20;强化学习控制器22,所述强化学习控制器被配置用于生成强化学习控制信号24;比较器25,所述比较器被配置用于对所述常规反馈控制信号与所述强化学习控制信号的正交性进行比较,其中,所述比较器被配置用于提供指示所述常规反馈控制信号与所述强化学习控制信号之间的正交性关系的信号26;其中,所述强化学习控制器包括奖励函数28,所述奖励函数响应于指示所述常规反馈控制信号与所述强化学习控制信号之间的正交性关系的信号,其中,指示所述常规反馈控制器信号与所述强化学习控制器信号的相互依赖性的正交性关系通过所述奖励函数进行惩罚,从而避免了所述常规反馈控制器与所述强化学习控制器之间的控制冲突,所述强化学习控制器的所述奖励函数被配置用于基于所述常规反馈控制信号和所述强化学习控制信号对满足所述奖励函数的相应贡献来生成一串自适应权重30;和信号组合器32,所述信号组合器被配置用于基于由所述强化学习控制器的所述奖励函数生成的一串自适应权重来自适应地组合所述常规反馈控制信号和所述强化学习控制信号,其中,所述信号组合器被配置用于提供所述常规反馈控制信号和所述强化学习控制信号的自适应组合控制信号34,所述自适应组合控制信号被配置用于在所述机器人执行一系列任务时控制所述机器人。2.根据权利要求1所述的机器人控制系统,其中,所述常规反馈控制信号与所述强化学习控制信号之间的所述正交性关系是基于所述常规反馈控制信号与所述强化学习控制信号的内积来确定的。3.根据权利要求1所述的机器人控制系统,其中,所述控制器被配置用于执行用于所述常规反馈控制器和所述强化学习控制器的混合控制策略,以便在所述机器人执行所述一系列任务时控制所述机器人。4.根据权利要求3所述的机器人控制系统,其中,所述混合控制策略包括机器人控制模式,所述机器人控制模式包括所述机器人的轨迹控制和交互控制。5.根据权利要求4所述的机器人控制系统,其中,所述机器人的所述交互控制包括由所述机器人的关节在执行所述一系列任务的相应任务时的摩擦、接触和撞击交互。6.根据权利要求3所述的机器人控制系统,其中,用于所述常规反馈控制器和所述强化学习控制器的所述混合控制策略是在机器学习框架中被学习的,其中,在模拟环境中获取的虚拟传感器和执行器数据,以及在物理环境中获取的传感器和执行器数据彼此迭代地交织,以在减少的周期时间内学习用于所述常规反馈控制器和所述强化学习控制器的所述混合控制策略。7.一种用于训练机器人控制系统的方法,所述方法包括:在能够在物理环境46中操作的相应的机器人14上部署102用于所述机器人控制系统的基准控制策略,所述基准控制策略是在模拟环境44中被训练的;
从可操作地耦合到相应的所述机器人的真实世界传感器和执行器获取104真实世界传感器和执行器数据54,所述机器人是在所述物理环境中利用所述基准控制策略被控制的;提取106所获取的真实世界传感器和执行器数据的统计属性;...

【专利技术属性】
技术研发人员:欧根
申请(专利权)人:西门子股份公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1