基于贝尔曼无穷误差的对抗鲁棒Q学习方法及系统技术方案

技术编号：45436301 阅读：19 留言：0更新日期：2025-06-04 19:16

本申请涉及数据处理技术领域，公开了一种基于贝尔曼无穷误差的对抗鲁棒Q学习方法及系统。该方法包括：根据马尔可夫决策过程的状态空间、动作空间和动态转移概率函数，利用贝尔曼最优Q函数构造本征状态邻域集合，并利用一致性对抗鲁棒算子刻画最优对抗Q函数模型，采用贝尔曼无穷范数形成训练目标，结合投影梯度下降算法直接获取对抗样本，或经区间界限传播估计Q值边界进而得到训练目标的替代上界目标，最后通过随机梯度下降或自适应动量估计等方法完成网络训练。本申请在保证最优鲁棒策略存在性的前提下，设计一种既具有对抗鲁棒性又具有训练稳定性的深度Q学习方法，使得训练出的智能体在干净环境和对抗环境中都能表现出一致的优良性能。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及数据处理领域，尤其涉及一种基于贝尔曼无穷误差的对抗鲁棒q学习方法及系统。

技术介绍

1、深度强化学习在解决复杂决策问题方面取得了显著成功，其中q学习方法基于贝尔曼最优方程对q函数进行迭代更新并进行决策。深度q网络利用神经网络来近似表示q函数，并基于贝尔曼误差进行训练。在理想情况下，当贝尔曼误差趋近于零时，q网络可以很好地近似最优q函数。然而，由于神经网络的表达能力和优化算法等限制的存在，贝尔曼误差实际上只能达到一个很小的非零值。虽然在完全无对抗扰动的干净环境中，具有小贝尔曼误差的q网络可以展现出优异的性能。

2、但是，现有的深度q网络在小贝尔曼误差下并不具有稳定性保证，在面对精心构造的、难以察觉的微小对抗扰动时，基于q网络的决策会完全失效。此外，由于在一般条件下对抗鲁棒性策略可能并不存在，现有的对抗鲁棒性训练方法本质上需要在对抗鲁棒性和策略的存在性之间进行权衡，在提升对抗鲁棒性的同时会牺牲在干净环境下的性能。这种脆弱性和对抗鲁棒性的缺乏极大地限制了深度强化学习方法在现实复杂环境中的可信部署。

...

【技术保护点】

1.一种基于贝尔曼无穷误差的对抗鲁棒Q学习方法，其特征在于，所述基于贝尔曼无穷误差的对抗鲁棒Q学习方法包括：
2.根据权利要求1所述的基于贝尔曼无穷误差的对抗鲁棒Q学习方法，其特征在于，所述根据马尔可夫决策过程的状态空间、动作空间和动态转移概率函数，利用贝尔曼最优Q函数构造本征状态邻域集合，包括：
3.根据权利要求1所述的基于贝尔曼无穷误差的对抗鲁棒Q学习方法，其特征在于，所述基于所述本征状态邻域集合，通过一致性对抗鲁棒算子对状态-动作值函数进行迭代更新运算，生成最优对抗Q函数，包括：
4.根据权利要求1所述的基于贝尔曼无穷误差的对抗鲁棒Q学习方法，其...

【技术特征摘要】

1.一种基于贝尔曼无穷误差的对抗鲁棒q学习方法，其特征在于，所述基于贝尔曼无穷误差的对抗鲁棒q学习方法包括：
2.根据权利要求1所述的基于贝尔曼无穷误差的对抗鲁棒q学习方法，其特征在于，所述根据马尔可夫决策过程的状态空间、动作空间和动态转移概率函数，利用贝尔曼最优q函数构造本征状态邻域集合，包括：
3.根据权利要求1所述的基于贝尔曼无穷误差的对抗鲁棒q学习方法，其特征在于，所述基于所述本征状态邻域集合，通过一致性对抗鲁棒算子对状态-动作值函数进行迭代更新运算，生成最优对抗q函数，包括：
4.根据权利要求1所述的基于贝尔曼无穷误差的对抗鲁棒q学习方法，其特征在于，所述采用贝尔曼无穷范数对最优对抗q函数进行误差计算，形成优化训练目标，包括：
5.根据权利要求4所述的基于贝尔曼无穷误差的对抗鲁棒q学习方法，其...

【专利技术属性】
技术研发人员：韩丛英，李浩冉，张紫程，郭田德，
申请(专利权)人：中国科学院大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人

上一篇：MTW沸石两种类型纳米晶聚集体及其制备方法技术
下一篇：一种用于液晶滴下装置的智能排气系统制造方法及图纸

相关技术

一种差异量化的科技型企业创新能力评估...

一种阴极杂化界面与其应用制造技术

基于神经形态视觉传感阵列的运动矢量成...

一种低温条件下赤泥的表面还原增磁方法...

一种近红外神经形态视觉感知器件及其制...

一种单阴离子多齿配体的IVB族金属烷...

技能岗位人员能力素质耦合协调性评估方...

基于深紫外LED的立体辐照输水渠道生...

一种基于SM3的云数据去重方法及系统...

基于因果图的模型预测过程的可解释方法...

网友询问留言已有0条评论

还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1

发布您的意见

相关领域技术

一种车辆精准跟踪方法及系统技术方案

一种基于图神经网络的神经元形态分析方...

IG-MambaUNet图像分割模型...

基于智慧无人机下的公路工程质量监测评...

火电储能调频决策方案的评价方法和系统...

基于图神经网络的目标导向轨迹预测系统...

镜像运行方法、装置、电子设备及可读介...

一种增强领域自适应的振动筛跨域故障诊...