基于不完美奖励函数的离线策略优化方法及装置制造方法及图纸

技术编号:36211857 阅读:13 留言:0更新日期:2023-01-04 12:08
本发明专利技术实施例提供一种基于不完美奖励函数的离线策略优化方法及装置,包括:获取待决策对象的状态数据;将所述状态数据输入至策略优化模型,获得所述策略优化模型输出的策略优化结果;其中,所述策略优化模型是基于预先设定的奖励函数在离线场景下通过强化学习构建的。由于本发明专利技术的策略优化模型基于预先设定的奖励函数在离线场景下通过强化学习构建,仅依赖于少量专家数据,适用于各种类型的不完美奖励,整个过程可以以完全离线的方式求解,无需任何在线交互,可以缩小由于合理的奖励函数难以设计而导致的得到的策略存在的偏差,提高了决策的准确度。决策的准确度。决策的准确度。

【技术实现步骤摘要】
基于不完美奖励函数的离线策略优化方法及装置


[0001]本专利技术涉及人工智能
,尤其涉及一种基于不完美奖励函数的离线策略优化方法及装置。

技术介绍

[0002]人工智能领域中,奖励函数在强化学习中是必不可少的,它是激励主体解决给定任务的导向信号。然而,奖励函数十分难以设计,甚至难以近似。使用数字奖励函数来精确描述一个复杂的任务通常需要大量的人力,这通常是不可能的,在许多情况下,只能获得低于标准的奖励函数,有时甚至是零回报信号,这通常会造成实质性的性能损失或需要大量的专家示教弥补奖励函数的缺失。例如,在自动驾驶领域,由于奖励函数的不完美特性,导致路线设置不准确。再例如,在机器人动作规划领域,也会由于奖励函数的不完美特性,导致动作策略准确性差。
[0003]现有针对离线学习环境下不完美奖励函数的研究中,由于收集在线交互的成本很高,甚至很危险,加上任务的复杂性或人类的认知偏差,通常只有一个与想要解决的目标任务不一致的奖励函数。并且由于无法进一步和在线环境进行交互,人们通常无法对该不完美的奖励函数进行合理的评估和修改。此外,在奖励信号缺失或完全错误的极端情况下,人们将不得不求助于模仿学习或者逆向强化学习方法直接模仿或从专家行为中获得新的奖励函数。这些方法严重依赖于专家示教的数量和质量,这导致当任务太复杂而不能由少量专家示教来表示时性能很差。

技术实现思路

[0004]本专利技术提供一种基于不完美奖励函数的离线策略优化方法及装置,用以解决现有技术成本高、普适性差、离线设置不适用以及准确度低的问题
[0005]第一方面,本专利技术提供一种基于不完美奖励函数的离线策略优化方法,包括:
[0006]获取待决策对象的状态数据;
[0007]将所述状态数据输入至策略优化模型,获得所述策略优化模型输出的策略优化结果;
[0008]其中,所述策略优化模型是基于预先设定的奖励函数在离线场景下通过强化学习构建的。
[0009]根据本专利技术提供的一种基于不完美奖励函数的离线策略优化方法,所述策略优化模型的表达式为:
[0010][0011]其中:
[0012]为在不完美的奖励函数下的马尔可夫决策过程;
[0013]S为状态空间;
[0014]A为动作空间;
[0015]为不完美的奖励函数,其为关于状态s,动作a的函数,记为
[0016]Δr
φ
为奖励函数修正项,其为关于状态s,动作a和不完美奖励的函数,记为
[0017]T为转移概率;
[0018]μ0为初始状态分布;
[0019]γ为折旧因子。
[0020]根据本专利技术提供的一种基于不完美奖励函数的离线策略优化方法,预先设定的所述奖励函数为双层优化函数,所述双层优化函数的预先设定过程,具体包括:
[0021]获取原始奖励函数,并基于预设的修正项对所述原始奖励函数进行修正,以得到修正后的奖励函数;
[0022]基于修正后的奖励函数,通过求解RL问题,以获得最优策略的稳态状态

动作分布;
[0023]基于所述稳态状态

动作分布调整所述修正项,以得到最小奖励偏差。
[0024]根据本专利技术提供的一种基于不完美奖励函数的离线策略优化方法,所述双层优化函数的表达式包括:
[0025]上层优化表达式:
[0026]下层优化表达式:下层优化表达式:
[0027]其中:
[0028]D
f
(a||b)为a和b之间f散度上的不一致性度量;
[0029]Δr
φ
为奖励函数修正项,其为关于状态s,动作a和不完美奖励的函数,记为
[0030]d
E
为专家示教所对应的稳态状态

动作分布,该分布是(通常不可获得)的一个近似替代;
[0031]为在原有不完美奖励函数的基础上添加奖励函数修正项后,得到的最优策略的稳态状态

动作分布;
[0032]为不完美的奖励函数,其为关于状态s,动作a的函数,记为
[0033]α是保守因子,用来调整下层优化问题的保守程度;α越大,则下层的RL优化问题越保守,更趋近于模仿离线数据集d
D
的分布;α越小,则下层的RL优化问题越激进,更趋向于最大化奖励函数;
[0034]π为优化变量,其在所对应的MDP下的最优策略是
[0035]d
π
为中间变量,给定一个策略π,就对应着一个d
π

[0036]d
D
为离线数据集所对应的稳态状态

动作分布。
[0037]根据本专利技术提供的一种基于不完美奖励函数的离线策略优化方法,所述双层优化函数的表达式相当于:
[0038]上层优化表达式:
[0039]下层优化表达式:
[0040][0041]其中:
[0042]D
f
(a||b)为a和b之间f散度上的不一致性度量;
[0043]Δr
φ
为奖励函数修正项,其为关于状态s,动作a和不完美奖励的函数,记为
[0044]d
E
为专家示教所对应的稳态状态

动作分布,该分布是(通常不可获得)的一个近似替代;
[0045]为在原有不完美奖励函数的基础上添加奖励函数修正项后,得到的最优策略的稳态状态

动作分布;
[0046]为不完美的奖励函数,其为关于状态s,动作a的函数,记为
[0047]Δr
φ
为奖励函数修正项,其为关于状态s,动作a和不完美奖励的函数,记为
[0048]α是保守因子,用来调整下层优化问题的保守程度;α越大,则下层的RL优化问题越保守,更趋近于模仿离线数据集d
D
的分布;α越小,则下层的RL优化问题越激进,更趋向于最大化奖励函数;
[0049]d为优化变量,其最优解是
[0050]d
D
为离线数据集所对应的稳态状态

动作分布;
[0051]μ0为初始状态分布;
[0052]γ为折旧因子;
[0053]为逆转移矩阵;
[0054]S为状态空间。
[0055]根据本专利技术提供的一种基于不完美奖励函数的离线策略优化方法,基于预设优化问题,所述下层优化表达式的求解过程包括:
[0056]根据第一预设公式,将带约束的优化问题通过拉格朗日对偶法转化为无约束的max min优化问题;
[0057]根据第二预设公式,利用强对偶性将max min的优化次序交换为min max问题;
[0058]利用Fenchel对偶得到内层max问题的最优解,消除一层优化问题;
[0059]将所述下层优化表达式中求解d的问题,转换为求解v本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于不完美奖励函数的离线策略优化方法,其特征在于,包括:获取待决策对象的状态数据;将所述状态数据输入至策略优化模型,获得所述策略优化模型输出的策略优化结果;其中,所述策略优化模型是基于预先设定的奖励函数在离线场景下通过强化学习构建的。2.根据权利要求1所述的基于不完美奖励函数的离线策略优化方法,其特征在于,所述策略优化模型的表达式为:其中:为在不完美的奖励函数下的马尔可夫决策过程;S为状态空间;A为动作空间;为不完美的奖励函数,其为关于状态s,动作a的函数,记为rt
φ
为奖励函数修正项,其为关于状态s,动作a和不完美奖励的函数,记为T为转移概率;μ0为初始状态分布;γ为折旧因子。3.根据权利要求2所述的基于不完美奖励函数的离线策略优化方法,其特征在于,预先设定的所述奖励函数为双层优化函数,所述双层优化函数的预先设定过程,具体包括:获取原始奖励函数,并基于预设的修正项对所述原始奖励函数进行修正,以得到修正后的奖励函数;基于修正后的奖励函数,通过求解RL问题,以获得最优策略的稳态状态

动作分布;基于所述稳态状态

动作分布调整所述修正项,以得到最小奖励偏差。4.根据权利要求3所述的基于不完美奖励函数的离线策略优化方法,其特征在于,所述双层优化函数的表达式包括:上层优化表达式:下层优化表达式:下层优化表达式:其中:D
f
(a||b)为a和b之间f散度上的不一致性度量;rt
φ
为奖励函数修正项,其为关于状态s,动作a和不完美奖励的函数,记为d
E
为专家示教所对应的稳态状态

动作分布,该分布是(通常不可获得)的一个近似替代;
为在原有不完美奖励函数的基础上添加奖励函数修正项后,得到的最优策略的稳态状态

动作分布;为不完美的奖励函数,其为关于状态s,动作a的函数,记为α是保守因子,用来调整下层优化问题的保守程度;α越大,则下层的RL优化问题越保守,更趋近于模仿离线数据集d
D
的分布;α越小,则下层的RL优化问题越激进,更趋向于最大化奖励函数;π为优化变量,其在所对应的下的最优策略是d
π
为中间变量,给定一个策略π,就对应着一个d
π
;d
D
为离线数据集所对应的稳态状态

动作分布。5.根据权利要求4所述的基于不完美奖励函数的离线策略优化方法,其特征在于,所述双层优化函数的表达式相当于:上层优化表达式:下层优化表达式:下层优化表达式:其中:D
f
(a||b)为a和b之间f散度上的不一致性度量;Δr
φ
为奖励函数修正项,其为关于状态s,动作a和不完美奖励的函数,记为d
E
为专家示教所对应的稳态状态

动作分布,该分布是(通常不可获得)的一个近似替代;为在原有不完美奖励函数的基础上添加奖励函数修正项后,得到的最优策略的稳态状态

动作分布;为不完美的奖励函数,其为关于状态s,动作a的函数,记为Δr
φ
为奖励函数修正项,其为关于状态s,动作a和不完美奖励的函数,记为α是保守因子,用来调整下层优化问题的...

【专利技术属性】
技术研发人员:詹仙园李健雄顾维灏艾锐
申请(专利权)人:毫末智行科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1