基于贝尔曼无穷误差的对抗鲁棒Q学习方法及系统技术方案

技术编号:45436301 阅读:19 留言:0更新日期:2025-06-04 19:16
本申请涉及数据处理技术领域,公开了一种基于贝尔曼无穷误差的对抗鲁棒Q学习方法及系统。该方法包括:根据马尔可夫决策过程的状态空间、动作空间和动态转移概率函数,利用贝尔曼最优Q函数构造本征状态邻域集合,并利用一致性对抗鲁棒算子刻画最优对抗Q函数模型,采用贝尔曼无穷范数形成训练目标,结合投影梯度下降算法直接获取对抗样本,或经区间界限传播估计Q值边界进而得到训练目标的替代上界目标,最后通过随机梯度下降或自适应动量估计等方法完成网络训练。本申请在保证最优鲁棒策略存在性的前提下,设计一种既具有对抗鲁棒性又具有训练稳定性的深度Q学习方法,使得训练出的智能体在干净环境和对抗环境中都能表现出一致的优良性能。

【技术实现步骤摘要】

本申请涉及数据处理领域,尤其涉及一种基于贝尔曼无穷误差的对抗鲁棒q学习方法及系统。


技术介绍

1、深度强化学习在解决复杂决策问题方面取得了显著成功,其中q学习方法基于贝尔曼最优方程对q函数进行迭代更新并进行决策。深度q网络利用神经网络来近似表示q函数,并基于贝尔曼误差进行训练。在理想情况下,当贝尔曼误差趋近于零时,q网络可以很好地近似最优q函数。然而,由于神经网络的表达能力和优化算法等限制的存在,贝尔曼误差实际上只能达到一个很小的非零值。虽然在完全无对抗扰动的干净环境中,具有小贝尔曼误差的q网络可以展现出优异的性能。

2、但是,现有的深度q网络在小贝尔曼误差下并不具有稳定性保证,在面对精心构造的、难以察觉的微小对抗扰动时,基于q网络的决策会完全失效。此外,由于在一般条件下对抗鲁棒性策略可能并不存在,现有的对抗鲁棒性训练方法本质上需要在对抗鲁棒性和策略的存在性之间进行权衡,在提升对抗鲁棒性的同时会牺牲在干净环境下的性能。这种脆弱性和对抗鲁棒性的缺乏极大地限制了深度强化学习方法在现实复杂环境中的可信部署。


技术实现思路<本文档来自技高网...

【技术保护点】

1.一种基于贝尔曼无穷误差的对抗鲁棒Q学习方法,其特征在于,所述基于贝尔曼无穷误差的对抗鲁棒Q学习方法包括:

2.根据权利要求1所述的基于贝尔曼无穷误差的对抗鲁棒Q学习方法,其特征在于,所述根据马尔可夫决策过程的状态空间、动作空间和动态转移概率函数,利用贝尔曼最优Q函数构造本征状态邻域集合,包括:

3.根据权利要求1所述的基于贝尔曼无穷误差的对抗鲁棒Q学习方法,其特征在于,所述基于所述本征状态邻域集合,通过一致性对抗鲁棒算子对状态-动作值函数进行迭代更新运算,生成最优对抗Q函数,包括:

4.根据权利要求1所述的基于贝尔曼无穷误差的对抗鲁棒Q学习方法,其...

【技术特征摘要】

1.一种基于贝尔曼无穷误差的对抗鲁棒q学习方法,其特征在于,所述基于贝尔曼无穷误差的对抗鲁棒q学习方法包括:

2.根据权利要求1所述的基于贝尔曼无穷误差的对抗鲁棒q学习方法,其特征在于,所述根据马尔可夫决策过程的状态空间、动作空间和动态转移概率函数,利用贝尔曼最优q函数构造本征状态邻域集合,包括:

3.根据权利要求1所述的基于贝尔曼无穷误差的对抗鲁棒q学习方法,其特征在于,所述基于所述本征状态邻域集合,通过一致性对抗鲁棒算子对状态-动作值函数进行迭代更新运算,生成最优对抗q函数,包括:

4.根据权利要求1所述的基于贝尔曼无穷误差的对抗鲁棒q学习方法,其特征在于,所述采用贝尔曼无穷范数对最优对抗q函数进行误差计算,形成优化训练目标,包括:

5.根据权利要求4所述的基于贝尔曼无穷误差的对抗鲁棒q学习方法,其...

【专利技术属性】
技术研发人员:韩丛英李浩冉张紫程郭田德
申请(专利权)人:中国科学院大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1