通过强化学习适配PID系数的方法和系统技术方案

技术编号:37963407 阅读:24 留言:0更新日期:2023-06-30 09:38
系统和方法用于通过强化学习适配比例

【技术实现步骤摘要】
【国外来华专利技术】通过强化学习适配PID系数的方法和系统


[0001]本专利技术的实施例一般涉及机器学习系统和方法。更具体地,本专利技术涉及用于使用强化学习来适配(adapt)比例

积分

微分(PID)控制器的系数的系统和方法。

技术介绍

[0002]以下背景信息可能呈现了现有技术的特定方面的示例(例如,但不限于方法、事实或常识),虽然这些示例有望有助于进一步教导读者关于现有技术的附加方面,但不应被解释为将本专利技术或其任何实施例限制为其中陈述或暗示或者由此推断的任何内容。
[0003]PID控制器是用于在给定特定控制值的当前误差的情况下实现该特定控制值的控制机制。PID控制器具有针对特定情况进行调节(tune)所必需的许多参数(系数)。PID控制器往往与关于感知的值的滤波器(诸如低通滤波器)进行组合。这些滤波器也具有需要调节的参数,诸如低通滤波器上的极点。虽然存在用于调节这些参数的现有经验法则,但它们通常需要手动或通过自动调节进行微调。此外,这些参数特定于它们正在操作的条件,并且如果那些条件变化,则它们需要被重新本文档来自技高网...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于自动调节比例

积分

微分(PID)系数的强化学习过程,所述过程执行以下步骤:以第一频率操作PID控制器以最小化可变设定点与过程输出之间的误差;通过在策略通过更新PID系数作用于PID控制器之后从感测信息导出的奖励函数来训练策略;以及以第二频率操作强化学习模型,所述强化学习模型执行以下步骤:接收来自PID控制器的关于误差项的汇总统计和关于环境的感测信息以计算观测;通过将观测馈送到经训练的策略中来基于观测选择动作,所述动作包括改变PID系数。2.根据权利要求1所述的过程,其中所述奖励函数是从来自PID控制器的关于误差项的汇总统计导出的。3.根据权利要求1所述的过程,其中所述动作包括改变滤波器的可调节参数。4.根据权利要求1所述的过程,其中所述第一频率大于所述第二频率。5.根据权利要求1所述的过程,其中所述第一频率比所述第二频率大约100至约10,000倍。6.根据权利要求1所述的过程,其中所述PID控制器实时连续操作。7.根据权利要求1所述的过程,还包括将经训练的策略部署到生产环境中。8.根据权利要求1所述的过程,其中所述奖励函数基于最小化误差、最小化控制变量变化和最小化超调量中的一项或多项。9.一种自动调整比例

积分

微分控制器的系数的方法,所述方法包括:通过在策略通过更新PID系数作用于PID控制器之后从感测信息导出的奖励函数来训练策略;以及操作强化学习模型以执行以下步骤:接收来自PID控制器的关于误差项的汇总统计并接收关于环境的感测信息以计算观测;以及通过将观测馈送到经训练的策略中来基于观测选...

【专利技术属性】
技术研发人员:S
申请(专利权)人:美国索尼公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1