【技术实现步骤摘要】
基于不完美奖励函数的离线策略优化方法及装置
[0001]本专利技术涉及人工智能
,尤其涉及一种基于不完美奖励函数的离线策略优化方法及装置。
技术介绍
[0002]人工智能领域中,奖励函数在强化学习中是必不可少的,它是激励主体解决给定任务的导向信号。然而,奖励函数十分难以设计,甚至难以近似。使用数字奖励函数来精确描述一个复杂的任务通常需要大量的人力,这通常是不可能的,在许多情况下,只能获得低于标准的奖励函数,有时甚至是零回报信号,这通常会造成实质性的性能损失或需要大量的专家示教弥补奖励函数的缺失。例如,在自动驾驶领域,由于奖励函数的不完美特性,导致路线设置不准确。再例如,在机器人动作规划领域,也会由于奖励函数的不完美特性,导致动作策略准确性差。
[0003]现有针对离线学习环境下不完美奖励函数的研究中,由于收集在线交互的成本很高,甚至很危险,加上任务的复杂性或人类的认知偏差,通常只有一个与想要解决的目标任务不一致的奖励函数。并且由于无法进一步和在线环境进行交互,人们通常无法对该不完美的奖励函数进行合理的评估和修改。此外,在奖励信号缺失或完全错误的极端情况下,人们将不得不求助于模仿学习或者逆向强化学习方法直接模仿或从专家行为中获得新的奖励函数。这些方法严重依赖于专家示教的数量和质量,这导致当任务太复杂而不能由少量专家示教来表示时性能很差。
技术实现思路
[0004]本专利技术提供一种基于不完美奖励函数的离线策略优化方法及装置,用以解决现有技术成本高、普适性差、离线设置不适用以及准确度低的问题 ...
【技术保护点】
【技术特征摘要】
1.一种基于不完美奖励函数的离线策略优化方法,其特征在于,包括:获取待决策对象的状态数据;将所述状态数据输入至策略优化模型,获得所述策略优化模型输出的策略优化结果;其中,所述策略优化模型是基于预先设定的奖励函数在离线场景下通过强化学习构建的。2.根据权利要求1所述的基于不完美奖励函数的离线策略优化方法,其特征在于,所述策略优化模型的表达式为:其中:为在不完美的奖励函数下的马尔可夫决策过程;S为状态空间;A为动作空间;为不完美的奖励函数,其为关于状态s,动作a的函数,记为rt
φ
为奖励函数修正项,其为关于状态s,动作a和不完美奖励的函数,记为T为转移概率;μ0为初始状态分布;γ为折旧因子。3.根据权利要求2所述的基于不完美奖励函数的离线策略优化方法,其特征在于,预先设定的所述奖励函数为双层优化函数,所述双层优化函数的预先设定过程,具体包括:获取原始奖励函数,并基于预设的修正项对所述原始奖励函数进行修正,以得到修正后的奖励函数;基于修正后的奖励函数,通过求解RL问题,以获得最优策略的稳态状态
‑
动作分布;基于所述稳态状态
‑
动作分布调整所述修正项,以得到最小奖励偏差。4.根据权利要求3所述的基于不完美奖励函数的离线策略优化方法,其特征在于,所述双层优化函数的表达式包括:上层优化表达式:下层优化表达式:下层优化表达式:其中:D
f
(a||b)为a和b之间f散度上的不一致性度量;rt
φ
为奖励函数修正项,其为关于状态s,动作a和不完美奖励的函数,记为d
E
为专家示教所对应的稳态状态
‑
动作分布,该分布是(通常不可获得)的一个近似替代;
为在原有不完美奖励函数的基础上添加奖励函数修正项后,得到的最优策略的稳态状态
‑
动作分布;为不完美的奖励函数,其为关于状态s,动作a的函数,记为α是保守因子,用来调整下层优化问题的保守程度;α越大,则下层的RL优化问题越保守,更趋近于模仿离线数据集d
D
的分布;α越小,则下层的RL优化问题越激进,更趋向于最大化奖励函数;π为优化变量,其在所对应的下的最优策略是d
π
为中间变量,给定一个策略π,就对应着一个d
π
;d
D
为离线数据集所对应的稳态状态
‑
动作分布。5.根据权利要求4所述的基于不完美奖励函数的离线策略优化方法,其特征在于,所述双层优化函数的表达式相当于:上层优化表达式:下层优化表达式:下层优化表达式:其中:D
f
(a||b)为a和b之间f散度上的不一致性度量;Δr
φ
为奖励函数修正项,其为关于状态s,动作a和不完美奖励的函数,记为d
E
为专家示教所对应的稳态状态
‑
动作分布,该分布是(通常不可获得)的一个近似替代;为在原有不完美奖励函数的基础上添加奖励函数修正项后,得到的最优策略的稳态状态
‑
动作分布;为不完美的奖励函数,其为关于状态s,动作a的函数,记为Δr
φ
为奖励函数修正项,其为关于状态s,动作a和不完美奖励的函数,记为α是保守因子,用来调整下层优化问题的...
【专利技术属性】
技术研发人员:詹仙园,李健雄,顾维灏,艾锐,
申请(专利权)人:毫末智行科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。