一种解决物理约束的深度强化学习训练及决策方法技术

技术编号:38006103 阅读:10 留言:0更新日期:2023-06-30 10:22
本发明专利技术公开了一种解决物理约束的深度强化学习训练及决策方法,公开了一种通用的能够处理物理约束的强化学习方法,确保了在强化学习进行决策的过程中硬约束的满足。本发明专利技术提出的是一种通用的解决物理约束的强化学习方法,可以解决任意形式的具有任意多个可微约束的决策问题,而不限于某一具有某种特定形式约束的决策问题;本发明专利技术所提出的物理感知层是全可微的。因此,策略网络可以得到完整的梯度信息,因此其训练过程是端到端的,便于实现和操作。其训练更新的过程也更加准确;本发明专利技术致力于解决决策问题中的物理硬约束,其包含了等式和不等式约束,确保了决策的可行性。这对强化学习技术在实际应用中的落地意义重大。技术在实际应用中的落地意义重大。技术在实际应用中的落地意义重大。

【技术实现步骤摘要】
一种解决物理约束的深度强化学习训练及决策方法


[0001]本专利技术涉及一种解决物理约束的深度强化学习训练及决策方法,属于人工智能


技术介绍

[0002]强化学习(Reinforcement Learning)是一种解决序列决策问题的人工智能方法。近年来,其被广泛应用于机器人控制,游戏竞技,自动驾驶等领域。通常,序列决策问题会被建模成马尔科夫决策过程(Markov Decision Processes),也就是一个五元组<S,,,,>,其中,S代表状态空间,A代表动作空间,R代表奖励函数,P代表概率转移函数,γ代表折扣因子。传统强化学习的优化目标最大化累积折扣奖励的期望,即但是,经典的马尔科夫决策过程没有考虑现实决策问题中存在的固有约束,这也导致了传统强化学习很难被应用于一些具有物理约束的现实问题中。
[0003]在这样的背景下,相关专家学者又提出了基于约束马尔科夫决策过程(Constrained Markov Decision Processes)建模的安全强化学习技术(Safe Reinforcement Learning)。约束马尔科夫决策过程在马尔科夫决策过程的基础上引入了代价函数C。安全强化学习的目标是在最大化奖励目标的同时,满足累积折扣代价的期望的约束,即其中,d
i
代表第i个约束。但是,安全强化学习技术大多仅考虑了隐式的不等式约束,并且往往只能处理一些约束数量少,约束实际形式较为简单的场景;而现实应用中存在着许多复杂物理约束,除了不等式约束外,其中也包含了等式约束。这就使得经典的安全强化学习技术难以解决此类问题。
[0004]另一方面,现有的解决物理约束的机器学习方法,尤其是强化学习领域,大多都局限于某一具体应用,或者仅能解决特殊形式的约束。此外,目前对于带有物理约束的序列决策问题,尚未出现统一的建模方式,这也导致了该领域缺乏系统性的研究和方法。

技术实现思路

[0005]本专利技术要解决的技术问题是:现有的强化学习技术没有办法很好地满足在现实应用(例如电网操作任务)中的物理硬约束。
[0006]为了更好地定义和规范具有物理约束的决策问题,本专利技术首先提出了物理约束马尔可夫决策过程(Physics

Constrained Markov Decision Processes),在原来马尔可夫决策过程的基础上引入了两个元素,分别是满足等式约束策略集和满足不等式约束的策略集和满足不等式约束的策略集我们的目标是在等式约束策略集和不等式约束策略集中找出最优策略,也就是
[0007]本专利技术所公开的具体技术方案是提供了一种解决物理约束的深度强化学习决策方法,其特征在于,包括以下步骤:
[0008]步骤1、在强化学习的策略网络输出后添加一个可微的物理感知层,用于对策略网络输出的不满足物理约束的动作进行处理,使其满足物理硬约束,其中,物理感知层包括用于解决等式约束的满足性的等式构造层和用于解决不等式约束的满足性的不等式投影层;
[0009]本专利技术提出了物理感知强化学习方法。物理感知强化学习方法在强化学习原有的策略网络输出后添加了一个可微的物理感知层。物理感知层有一个缺点:当策略网络输出的初始动作离不等式约束所规定的的可行域较远时,其运行时间会大大提高,因此,本专利技术提出的物理感知强化学习方法还包括了单调原始对偶策略更新算法,使得策略网络输出的初始动作,就已经较为接近不等式约束所规定的可行域,减少了物理感知层的运行时间。
[0010]步骤2、给定当前状态s,使用策略网络决策出初始部分动作a
p

[0011]步骤3、将部分动作a
p
输入等式构造层,等式构造层通过求解当前状态s下等式约束所定义的方程组,求解出剩余动作a
r
,最终得到完整动作
[0012]步骤4、将完整动作输入不等式投影层,不等式投影层以当前状态s下不等式约束对应的精确惩罚函数为优化目标,对完整动作进行多次投影更新,直至其满足所有不等式约束,输出最终可行动作a;
[0013]步骤5、强化学习智能体执行最终可行动作a。
[0014]优选地,步骤2中,假设当前实际问题具有m个等式约束,则从原始的动作空间R
n
中选择n

m个动作作为策略网络实际要决策的动作维数,将其称为部分动作a
p

[0015]优选地,步骤3中,在等式构造层中,当部分动作a
p
确定之后,根据m个等式约束对于剩下的m个要决策的动作a
r
构建出一个具有m个方程的m元方程组;然后,通过求解m元方程组,将剩下的m维动作给解出来。
[0016]优选地,步骤3中,在等式构造层中,求解m元方程组时等式构造层利用了隐函数定理来获得剩余动作a
r
对于a
p
的雅克比矩阵,不管从部分动作a
p
到剩余动作a
r
的计算过程是否可微,策略网络都能够得到从损失函数反向传播回来的完整梯度。
[0017]优选地,步骤3中,剩余动作a
r
对于部分动作a
p
的雅克比矩阵为:
[0018][0019]其中,剩余动作a
r

r
(
p
),φ
r
代表着从部分动作a
p
到剩余动作a
r
的计算过程;为状态s上的等式约束对于完整动作的雅克比矩阵,表示矩阵J
F
的第一列到第m列,表示矩阵J
F
的第m+1列到第n列。
[0020]本专利技术中解方程的方法可以是任意的现有方法,比如牛顿法;或者如果该方程具有某种特定的形式,比如都是线性等式,也可以直接得到关于剩余动作a
r
的解析解。然而,如果直接使用类似牛顿法之类的数值方法去求解,剩余动作a
r
对于部分动作a
p
的雅克比矩阵将无法获得。这就会导致策略网络无法获得完整的梯度流进行训练。因此,等式构造层利用了隐函数定理来获得剩余动作a
r
对于a
p
的雅克比矩阵。
[0021]优选地,步骤4中,不等式投影层将当前不满足的约束作为优化目标,在等式约束所定义的低维流形上进行优化,直至所有不等式约束满足,其中,不等式投影层的优化过程写成:
[0022][0023][0024][0025][0026]其中:是不等式投影层所采用的精确惩罚函数,是不等式投影层所采用的精确惩罚函数,表示状态s下关于动作a的第j个不等式约束;a(k)表示经过k次投影更新后的动作,其中,a
p
()表示k次投影更新后的部分动作,a
r
()表示k次投影更新后的剩余动作;是每次投影更新的步长。需要注意的是,由于不等式投影层所输出的最终动作a也需要满本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种解决物理约束的深度强化学习决策方法,其特征在于,包括以下步骤:步骤1、在强化学习的策略网络输出后添加一个可微的物理感知层,用于对策略网络输出的不满足物理约束的动作进行处理,使其满足物理硬约束,其中,物理感知层包括用于解决等式约束的满足性的等式构造层和用于解决不等式约束的满足性的不等式投影层;步骤2、给定当前状态s,使用策略网络决策出初始部分动作a
p
;步骤3、将部分动作a
p
输入等式构造层,等式构造层通过求解当前状态s下等式约束所定义的方程组,求解出剩余动作a
r
,最终得到完整动作步骤4、将完整动作输入不等式投影层,不等式投影层以当前状态s下不等式约束对应的精确惩罚函数为优化目标,对完整动作进行多次投影更新,直至其满足所有不等式约束,输出最终可行动作a;步骤5、强化学习智能体执行最终可行动作a。2.如权利要求1所述的一种解决物理约束的深度强化学习决策方法,其特征在于,步骤2中,假设当前实际问题具有m个等式约束,则从原始的动作空间R
n
中选择n

m个动作作为策略网络实际要决策的动作维数,将其称为部分动作a
p
。3.如权利要求2所述的一种解决物理约束的深度强化学习决策方法,其特征在于,步骤3中,在等式构造层中,当部分动作a
p
确定之后,根据m个等式约束对于剩下的m个要决策的动作a
r
构建出一个具有m个方程的m元方程组;然后,通过求解m元方程组,将剩下的m维动作给解出来。4.如权利要求3所述的一种解决物理约束的深度强化学习决策方法,其特征在于,步骤3中,在等式构造层中,求解m元方程组时等式构造层利用了隐函数定理来获得剩余动作a
r
对于a
p
的雅克比矩阵,不管从部分动作a
p
到剩余动作a
r
的计算过程是否可微,策略网络都能够得到从损失函数反向传播回来的完整梯度。5.如权利要求4所述的一种解决物理约束的深度强化学习决策方法,其特征在于,步骤3中,剩余动作a
r
对于部分动作a
p
的雅克比矩阵为:其中,剩余动作a
r

r
(
p
),φ
r
代表着从部分动作a
p
到剩余动作a
r
的计算过程;为状态s上的等式约束对于完整动作的雅克比矩阵,表示矩阵J
F
的第一列到第m列,表示矩阵J
F
的第m+1列到第n列。6.如权利要求1所述的一种解决物理约束的深度强化学习决策方法,其特征在于,步骤4中,不等式投影层将当前不满足的约束作为优化目标,在等式约束所定义的低维流形上进行优化,直至所有不等式约束满足,其中,不等式投影层的优化过程写成:行优化,直至所有不等式约束满足,其中,不等式投影层的优化过程写成:行优化,直至所有不等式约束满足,其中,不等式投影层的优化过程写成:行优化,直至所有不等式约束满足,其中,不等式投影层的优化过程写成:
其中:是不等式投影层所采用的精确惩罚函数,是不等式投影层所采用的精确惩罚函数,表示状态s下关于动作a的第j个不等式约束;a(k)表示经过k次投影更新后的动作,其中,a
p
()表示k次投影更新后的部分动作,a
r
()表示k次投影更新后的剩余动作;是每次投影更新的步长。7.一种如权利要求1所述的解决物理约束的深度强...

【专利技术属性】
技术研发人员:石野丁枢桐汪婧雅
申请(专利权)人:上海科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1