用于以轨迹为中心的基于模型的强化学习的稳健优化的系统及方法技术方案

技术编号:34168237 阅读:66 留言:0更新日期:2022-07-17 10:08
提供了用于优化用于以轨迹为中心的强化学习的系统的局部控制策略的控制器。控制器包括执行以下步骤:使用在使用初始随机控制策略执行的试错实验期间收集的数据的集合,来学习系统的随机预测模型;估计相关联的平均预测和不确定性;在当前时间步骤使用控制输入时,使用经过学习的随机系统模型确定系统与标称系统状态的偏差的局部集合;确定具有最坏情况偏差的系统状态;确定稳健性约束的梯度;使用非线性规划来提供并求解稳健策略优化问题,以获得系统轨迹并且同时稳定局部策略;根据求解的优化问题更新控制数据;以及经由接口输出更新后的控制数据。后的控制数据。后的控制数据。

【技术实现步骤摘要】
【国外来华专利技术】用于以轨迹为中心的基于模型的强化学习的稳健优化的系统及方法


[0001]本专利技术总体上涉及用于同时优化以轨迹为中心的强化学习的局部策略和控制轨迹的系统及方法。

技术介绍

[0002]强化学习(RL)是处理顺序决策问题的学习框架,其中“智能体(agent)”或决策者通过与(未知)环境交互来学习优化长期奖励的策略。在每个步骤,RL智能体获得关于其动作表现的评估反馈(称为奖励或成本),使其改进(最大化或最小化)后续动作的表现。
[0003]一般来说,任意非线性系统的全局学习和优化在计算和算法二者上可以极具挑战性。然而,许多系统需要执行的许多任务是以轨迹为中心的,因此,局部学习和优化可以是在数据上非常高效的。由于控制器的时变特性,以轨迹为中心的控制对于非线性系统可以具有挑战性。由于模型不正确或观察或致动中的噪声,对于实际系统而言,在运行期间偏离计划轨迹是很常见的。机器学习方法允许学习然后预测受控轨迹演变中的不确定性。从控制的角度来看,期望的是设计局部状态依赖策略,该状态依赖策略可以使用学习到的不确定性模型来使受控轨迹稳定。大多数技术不能使用系统模型中存在的不确定性知识来稳定所需的控制轨迹。
[0004]还期望的是同时设计轨迹和相应的稳定策略。这自然将在控制轨迹的最优性与其稳定性之间进行折衷。直观地说,在这种设置下,策略优化算法将避免可能更难控制的状态空间的区域,因此可以利用模型中的不确定性来设计稳健最优的以轨迹为中心的控制器。大多数当前技术分别执行这两个步骤(轨迹设计和控制器合成),因此无法利用模型不确定性的这种知识。
[0005]鉴于上述事实和挑战,需要更好的策略优化方法,这些方法可以使用物理系统的不确定统计模型,并利用这些模型的结构实现系统在宽范围任务中的稳健性能。

技术实现思路

[0006]最近的研究使这些算法在如计算机游戏的各个领域中取得了显著成功。在以轨迹为中心的RL中,目标是优化能够从系统的初始状态开始成功地执行任务并将系统引导到期望的最终状态的策略。以轨迹为中心的方法具有它们能够更快地学习的优势,因为这些方法学习局部预测模型,并使用它们在系统的局部邻域中优化策略。
[0007]强化学习算法可以大致分为两类——基于模型的方法和无模型的方法。基于模型的强化学习(MBRL)技术通常被认为是数据高效的,因为它们针对系统学习与任务无关的预测模型。然后使用经过学习的模型以使用随机控制方法合成系统的策略。然而,这些方法通常很难训练,因此导致性能低下的策略。通过这类算法获得低性能有几个原因,其中关键挑战之一是由于在学习过程期间收集的数据中存在噪声,因此在学习过程期间估计的系统的预测模型本质上是随机的。结果,错误的模型能够将优化算法驱动到状态空间中系统不稳
定的部分,然后学习过程可能发散。MBRL的另一个挑战性的方面是,估计出的模型在状态空间的不同区域中可能具有不同程度的不确定性,因此,随后的策略优化步骤应该利用经过学习的统计模型的这种结构来实现最优性能。大多数策略优化技术在策略优化期间要么忽略要么无法并入此信息。
[0008]MBRL的优点是在学习期间估计的预测模型与任务无关,因此它们能够用于多个任务,并且从而在跨多个任务的学习方面更有效。因此,MBRL允许重用经过学习的模型来计算不同任务的策略。结果,MBRL具有针对许多物理系统学习有效的策略的潜能,在这些物理系统中,为了优化策略而收集大量数据可能非常昂贵。
[0009]根据本专利技术的一些实施方式,使用物理系统的不确定统计模型来执行策略优化以利用这些模型的结构来实现这些系统在广泛任务范围中的稳健性能。此外,一些实施方式提供了能够通过有效地执行计算和相关的学习算法来处置任意非线性系统的控制器和方法。由于许多系统需要执行的许多任务是以轨迹为中心的,因此本专利技术的一些实施方式能够提供数据非常高效的局部学习和优化,从而提高计算机(计算机性能)。
[0010]本公开的一些实施方式基于以下认识:提供计算机实现的学习方法用于优化控制系统的控制策略。这种系统的一些示例可以是包括以下的系统:如HVAC系统的机械系统、工厂自动化系统、机器人系统和高性能感应电机等。在这种情况下,该方法可以包括:接收正按照特定任务策略而操作的系统的状态;将控制策略初始化为用于执行任务的初始策略(例如,系统和任务的已知部分模型);使用当前控制策略收集可以包括当前状态、动作和下一个状态的元组的数据;估计系统的统计预测模型;估计在任何状态、控制对下的预测以及与预测相关联的不确定性;估计系统需要被稳定至的标称系统状态周围的局部集合;计算可以用于优化局部稳定策略的参数的稳健性约束的梯度;计算系统动力学的梯度;通过使用稳健性约束的梯度求解非线性优化程序以最小化轨迹成本和局部稳定策略,来确定以轨迹为中心的控制策略。
[0011]一些实施方式提供了在学习期间估计的统计模型的不确定性的情况下为系统执行以轨迹为中心的任务的方法和系统。用于优化用于以轨迹为中心的强化学习的系统的局部控制策略的控制器可以包括:接口,其被配置为接收包括由传感器测量到的系统状态、控制数据和状态转移的元组的数据;存储器,其存储处理器可执行程序,该处理器可执行程序包括用于响应于经由接口接收到的系统任务命令而生成在期望的时间范围的标称状态和控制轨迹(开环轨迹)作为时间步骤的函数的随机预测学习模型、包括机器学习方法算法和初始随机控制策略的控制策略、用于沿标称轨迹调节偏差的局部策略;至少一个处理器,其被配置为:使用在使用初始随机控制策略执行的试错实验期间收集的数据的集合,来学习系统的随机预测模型;估计与随机预测模型相关联的平均预测和不确定性;将以轨迹为中心的控制器合成问题公式化,以将标称轨迹与前馈控制和稳定时不变反馈控制一起同时进行计算;在当前时间步骤使用控制输入时,使用经过学习的随机系统模型确定系统与标称系统状态的偏差的局部集合;在系统的偏差的局部集合中确定与标称系统状态具有最坏情况偏差的系统状态;通过计算在具有最坏情况偏差的系统状态下的稳健性约束的一阶导数来确定稳健性约束的梯度;通过在满足状态和输入约束的同时使状态控制轨迹的成本最小化,来确定将系统状态调节到标称轨迹的最优系统状态轨迹、前馈控制输入和局部时不变反馈策略;使用非线性规划提供并求解稳健策略优化问题;根据求解的优化问题更新控制
数据;以及经由接口输出更新后的控制数据。
[0012]此外,本专利技术的另一实施方式可以提供一种用于通过优化控制策略来控制系统的计算机实现方法(控制系统)。计算机实现的方法是为了用于优化用于以轨迹为中心的强化学习的系统的局部控制策略而提供的。该方法可以包括以下步骤:使用在使用初始随机控制策略执行的试错实验期间收集的数据的集合,来学习系统的随机预测模型;估计与随机预测模型相关联的平均预测和不确定性;将轨迹为中心的控制器合成问题公式化,以将标称轨迹与前馈控制和稳定时不变反馈控制一起同时进行计算;在当前时间步骤使用控制输入时,使用经过学习的随机系统模型确定系统与标称系统状态的偏差的局部集合;在系统的偏差的局部集合中确定与标称系统本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于优化用于以轨迹为中心的强化学习的系统的局部控制策略的控制器,该控制器包括:接口,该接口被配置为接收包括由传感器测量到的系统状态、控制数据和状态转移的元组的数据;存储器,该存储器存储处理器能执行程序,该处理器能执行程序包括用于响应于经由所述接口接收到的系统的任务命令而生成在期望的时间范围的标称状态和控制轨迹作为时间步骤的函数的随机预测学习模型、包括机器学习方法算法和初始随机控制策略的控制策略、用于沿标称轨迹调节偏差的局部策略;至少一个处理器,所述至少一个处理器被配置为:使用在使用所述初始随机控制策略执行的试错实验期间收集的数据的集合,来学习所述系统的随机预测模型;估计与所述随机预测模型相关联的平均预测和不确定性;将以轨迹为中心的控制器合成问题公式化,以同时计算标称轨迹与前馈控制以及稳定时不变反馈控制;在当前时间步骤使用控制输入时,使用经过学习的随机系统模型确定所述系统与标称系统状态的偏差的局部集合;在系统的偏差的局部集合中确定与所述标称系统状态具有最坏情况偏差的系统状态;通过计算在所述具有最坏情况偏差的系统状态下的所述稳健性约束的一阶导数来确定所述稳健性约束的梯度;通过在满足状态和输入约束的同时使状态控制轨迹的成本最小化,来确定将所述系统状态调节到所述标称轨迹的最优系统状态轨迹、前馈控制输入和局部时不变反馈策略;使用非线性规划求解稳健策略优化;根据求解的优化问题更新所述控制数据;以及经由所述接口输出更新后的控制数据。2.根据权利要求1所述的控制器,其中,所述系统是离散时间动态系统。3.根据权利要求1所述的控制器,其中,由时间相关前馈控制和稳定所述时间相关前馈控制的局部时不变反馈控制,来合成以轨迹为中心的控制策略。4.根据权利要求3所述的控制器,其中,用于离散时间动态系统的以轨迹为中心的控制策略的合成被公式化为具有非线性约束的非线性优化程序。5.根据权利要求4所述的控制器,其中,所述非线性约束是用于局部时不变反馈策略的系统动态和稳定约束。6.根据权利要求1所述的控制器,其中,所述时不变局部策略被配置为满足所述稳健性约束,所述稳健性约束将在当前时间步骤处于最坏情况偏差状态的所述系统的当前状态在下一时间步骤推入在所述轨迹周围的容错范围内。7.根据权利要求1所述的控制器,其中,沿着所述标称轨迹的局部不确定性集合是通过用于学习所述系统的前向动力学模型的随机函数逼近器获得的。8.根据权利要求1所述的控制器,其中,所述系统在已知集合中沿标称轨迹的每个状态处的...

【专利技术属性】
技术研发人员:D
申请(专利权)人:三菱电机株式会社
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1