通过强化学习适配PID系数的方法和系统技术方案

技术编号:37963407 阅读:10 留言:0更新日期:2023-06-30 09:38
系统和方法用于通过强化学习适配比例

【技术实现步骤摘要】
【国外来华专利技术】通过强化学习适配PID系数的方法和系统


[0001]本专利技术的实施例一般涉及机器学习系统和方法。更具体地,本专利技术涉及用于使用强化学习来适配(adapt)比例

积分

微分(PID)控制器的系数的系统和方法。

技术介绍

[0002]以下背景信息可能呈现了现有技术的特定方面的示例(例如,但不限于方法、事实或常识),虽然这些示例有望有助于进一步教导读者关于现有技术的附加方面,但不应被解释为将本专利技术或其任何实施例限制为其中陈述或暗示或者由此推断的任何内容。
[0003]PID控制器是用于在给定特定控制值的当前误差的情况下实现该特定控制值的控制机制。PID控制器具有针对特定情况进行调节(tune)所必需的许多参数(系数)。PID控制器往往与关于感知的值的滤波器(诸如低通滤波器)进行组合。这些滤波器也具有需要调节的参数,诸如低通滤波器上的极点。虽然存在用于调节这些参数的现有经验法则,但它们通常需要手动或通过自动调节进行微调。此外,这些参数特定于它们正在操作的条件,并且如果那些条件变化,则它们需要被重新调节。
[0004]图1图示了典型的PID控制器示意图。PID控制器100连续计算作为期望的设定点(SP)与测量的过程变量(PV)之间的差值的误差值,并基于比例、积分和微分项来应用校正。控制器尝试通过将控制变量(诸如过程温度、试剂控制等)调整为由控制项的加权和确定的新值来最小化随时间的误差。
[0005]P项与SP

PV误差e(t)的当前值成比例。例如,如果误差大且为正,则控制输出将成比例地大且为正,并考虑到增益因子K。单独使用比例控制将导致设定点与实际过程值之间的误差,因为它需要误差来生成比例响应。如果没有误差,则没有校正响应。
[0006]I项说明了SP

PV误差的过去值,并对它们在时间上进行积分以产生I项。例如,如果在应用比例控制后存在残余SP

PV误差,则积分项寻求通过添加由于误差的历史累积值而产生的控制效果来消除残余误差。当误差被消除时,积分项将停止增长。这将导致比例效果随着误差的减小而减小,但这被不断增长的积分效果补偿。
[0007]D项是基于SP

PV误差的当前变化率的对SP

PV误差的未来趋势的最佳估计。它有时被称为超前控制,因为它通过施加由误差变化率生成的控制影响来有效地寻求减少SP

PV误差的效果。变化越快,控制或抑制效果就越大。
[0008]可以执行回路(loop)调节以产生最优的控制功能。调节常数在下面显示为K,并且必须针对每个控制应用导出,因为它们取决于控制器外部的完整回路的响应特性。
[0009]鉴于前述内容,很明显需要能够使用机器学习来高效地适配PID系数的算法。

技术实现思路

[0010]解决控制问题的备选方法是将它们视为学习问题。强化学习(RL)将这些问题建模为序贯决策问题,并学习动作的长期效果。为了处理复杂问题,RL方法通常使用函数逼近来帮助泛化和加速学习。特别地,神经网络经常用作函数逼近器。RL方法可以学习在各种场景
中控制复杂系统,但这些函数逼近器往往计算成本很高。具体地,在计算资源有限的系统上,这些函数逼近器可能无法实时评估。
[0011]另一方面,PID控制器提供快速变化并且能够易于计算。本专利技术的方面组合了两种方法的优势——它使用PID控制器来实时运行并使用RL方法来使PID系数适应于变化的情况。具体地,RL步骤可以计算PID和滤波器系数。RL步骤可以以较低的频率运行,这减少了计算成本和资源。然后,PID步骤以较高的频率运行,从而允许它维持控制。
[0012]本专利技术的实施例提供了一种用于自动调节比例

积分

微分(PID)系数的强化学习算法,该算法执行以下步骤:以第一频率操作PID控制器以最小化可变设定点与过程输出之间的误差;以及以第二频率操作强化学习模型。强化学习模型执行以下步骤:接收来自PID控制器的关于误差项的汇总统计和关于环境的感测信息以计算观测(observation);通过将观测馈送到策略中来基于观测选择动作,该动作包括改变PID系数;以及通过在策略通过更新PID系数作用于PID控制器之后从感测信息导出的奖励函数来更新策略。
[0013]本专利技术的实施例还提供了一种自动调整比例

积分

微分控制器的系数的方法,包括操作强化学习模型以执行以下步骤:接收来自PID控制器的关于误差项的汇总统计并接收关于环境的感测信息以计算观测;通过将观测馈送到策略中来基于观测选择动作,该动作包括改变PID系数;以及通过在策略通过更新PID系数作用于PID控制器之后从感测信息导出的奖励函数来更新策略。
[0014]本专利技术的实施例还提供了一种自动调整比例

积分

微分控制器的系数的方法,包括在每个时间步操作PID控制器以最小化可变设定点与过程输出之间的误差;以及在多个时间步之后操作强化学习模型。强化学习模型执行以下步骤:接收来自PID控制器的关于误差项的汇总统计并接收关于环境的感测信息以计算观测;通过将观测馈送到策略中来基于观测选择动作,该策略预测该动作的结果,该动作包括改变PID系数;以及通过在策略通过更新PID系数作用于PID控制器之后从感测信息导出的奖励函数来更新策略。
[0015]参照以下附图、描述和权利要求,将变得更好地理解本专利技术的这些和其他特征、方面和优点。
附图说明
[0016]作为示例图示了本专利技术的一些实施例,并且本专利技术的一些实施例不限于附图中的各图,附图中相同的附图标记可以指示相似的元素。
[0017]图1图示了常规PID控制器的框图;
[0018]图2图示了根据本专利技术的示例性实施例的控制系统的示意表示;并且
[0019]图3图示了描述根据本专利技术的示例性实施例的方法的流程图。
[0020]除非另有说明,否则各图中的图示不一定是按比例绘制的。
[0021]现在,可以通过转向描述了图示的实施例的以下详细描述来更好地理解本专利技术及其各种实施例。应该明确理解的是,图示的实施例是作为示例阐述的,而不是通过限制在权利要求书中最终限定的本专利技术的方式阐述的。
具体实施方式
[0022]本文所使用的术语仅出于描述特定实施例的目的,而并不旨在限制本专利技术。如本
文所使用的,术语“和/或”包括一个或多个相关联的列出的项目的任何和所有组合。如本文所使用的,单数形式“一”、“一个”和“该”旨在包括复数形式以及单数形式,除非上下文另有明确指示。还应该理解的是,当在本说明书中使用术语“包括”和/或“包含”时,其指定了所述特征、步骤、操作、元素和/或组件的存在,但不排除一个或多个其他特征、步骤、操作、元素、组件和/或其群组的存在或添加。
[0023]除非另有定义,否则本文使用的所有术语本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于自动调节比例

积分

微分(PID)系数的强化学习过程,所述过程执行以下步骤:以第一频率操作PID控制器以最小化可变设定点与过程输出之间的误差;通过在策略通过更新PID系数作用于PID控制器之后从感测信息导出的奖励函数来训练策略;以及以第二频率操作强化学习模型,所述强化学习模型执行以下步骤:接收来自PID控制器的关于误差项的汇总统计和关于环境的感测信息以计算观测;通过将观测馈送到经训练的策略中来基于观测选择动作,所述动作包括改变PID系数。2.根据权利要求1所述的过程,其中所述奖励函数是从来自PID控制器的关于误差项的汇总统计导出的。3.根据权利要求1所述的过程,其中所述动作包括改变滤波器的可调节参数。4.根据权利要求1所述的过程,其中所述第一频率大于所述第二频率。5.根据权利要求1所述的过程,其中所述第一频率比所述第二频率大约100至约10,000倍。6.根据权利要求1所述的过程,其中所述PID控制器实时连续操作。7.根据权利要求1所述的过程,还包括将经训练的策略部署到生产环境中。8.根据权利要求1所述的过程,其中所述奖励函数基于最小化误差、最小化控制变量变化和最小化超调量中的一项或多项。9.一种自动调整比例

积分

微分控制器的系数的方法,所述方法包括:通过在策略通过更新PID系数作用于PID控制器之后从感测信息导出的奖励函数来训练策略;以及操作强化学习模型以执行以下步骤:接收来自PID控制器的关于误差项的汇总统计并接收关于环境的感测信息以计算观测;以及通过将观测馈送到经训练的策略中来基于观测选...

【专利技术属性】
技术研发人员:S
申请(专利权)人:美国索尼公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1