【技术实现步骤摘要】
本申请涉及数据处理领域,尤其涉及一种基于贝尔曼无穷误差的对抗鲁棒q学习方法及系统。
技术介绍
1、深度强化学习在解决复杂决策问题方面取得了显著成功,其中q学习方法基于贝尔曼最优方程对q函数进行迭代更新并进行决策。深度q网络利用神经网络来近似表示q函数,并基于贝尔曼误差进行训练。在理想情况下,当贝尔曼误差趋近于零时,q网络可以很好地近似最优q函数。然而,由于神经网络的表达能力和优化算法等限制的存在,贝尔曼误差实际上只能达到一个很小的非零值。虽然在完全无对抗扰动的干净环境中,具有小贝尔曼误差的q网络可以展现出优异的性能。
2、但是,现有的深度q网络在小贝尔曼误差下并不具有稳定性保证,在面对精心构造的、难以察觉的微小对抗扰动时,基于q网络的决策会完全失效。此外,由于在一般条件下对抗鲁棒性策略可能并不存在,现有的对抗鲁棒性训练方法本质上需要在对抗鲁棒性和策略的存在性之间进行权衡,在提升对抗鲁棒性的同时会牺牲在干净环境下的性能。这种脆弱性和对抗鲁棒性的缺乏极大地限制了深度强化学习方法在现实复杂环境中的可信部署。
...
【技术保护点】
1.一种基于贝尔曼无穷误差的对抗鲁棒Q学习方法,其特征在于,所述基于贝尔曼无穷误差的对抗鲁棒Q学习方法包括:
2.根据权利要求1所述的基于贝尔曼无穷误差的对抗鲁棒Q学习方法,其特征在于,所述根据马尔可夫决策过程的状态空间、动作空间和动态转移概率函数,利用贝尔曼最优Q函数构造本征状态邻域集合,包括:
3.根据权利要求1所述的基于贝尔曼无穷误差的对抗鲁棒Q学习方法,其特征在于,所述基于所述本征状态邻域集合,通过一致性对抗鲁棒算子对状态-动作值函数进行迭代更新运算,生成最优对抗Q函数,包括:
4.根据权利要求1所述的基于贝尔曼无穷误差的对
...【技术特征摘要】
1.一种基于贝尔曼无穷误差的对抗鲁棒q学习方法,其特征在于,所述基于贝尔曼无穷误差的对抗鲁棒q学习方法包括:
2.根据权利要求1所述的基于贝尔曼无穷误差的对抗鲁棒q学习方法,其特征在于,所述根据马尔可夫决策过程的状态空间、动作空间和动态转移概率函数,利用贝尔曼最优q函数构造本征状态邻域集合,包括:
3.根据权利要求1所述的基于贝尔曼无穷误差的对抗鲁棒q学习方法,其特征在于,所述基于所述本征状态邻域集合,通过一致性对抗鲁棒算子对状态-动作值函数进行迭代更新运算,生成最优对抗q函数,包括:
4.根据权利要求1所述的基于贝尔曼无穷误差的对抗鲁棒q学习方法,其特征在于,所述采用贝尔曼无穷范数对最优对抗q函数进行误差计算,形成优化训练目标,包括:
5.根据权利要求4所述的基于贝尔曼无穷误差的对抗鲁棒q学习方法,其...
【专利技术属性】
技术研发人员:韩丛英,李浩冉,张紫程,郭田德,
申请(专利权)人:中国科学院大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。