一种基于敏感度的深度强化学习智能体攻击方法技术

技术编号:24996491 阅读:59 留言:0更新日期:2020-07-24 17:59
本发明专利技术公开了一种基于敏感度的深度强化学习智能体攻击方法,包括步骤:1)将滑动窗口在输入图像上滑动;2)分析滑动窗口内的像素点对深度强化学习智能体输出的累积奖励的影响,并计算像素点的敏感度;3)根据像素点的敏感度和攻击成本,在输入图像上挑选最敏感的像素点,构造敏感点集合;4)对敏感点集合中的像素点,利用梯度进行攻击。本发明专利技术提出用敏感度衡量像素点对深度强化学习智能体输出的累积奖励的影响,同时考虑即时奖励和累积奖励对攻击的影响,从而构造有效的深度强化学习智能体攻击方法,从而深入研究深度强化学习智能体存在的安全漏洞。

【技术实现步骤摘要】
一种基于敏感度的深度强化学习智能体攻击方法
本专利技术涉及人工智能的
,尤其是指一种基于敏感度的深度强化学习智能体攻击方法。
技术介绍
深度强化学习是人工智能领域的一个重要方法。2014年以来,人工智能领域,包括其中深度强化学习方法,不断发展,在社会生活各个领域均有着广泛的应用。人工智能是新一轮产业变革的核心驱动力,必将成为我国将来的重要发展方向。深度强化学习方法越来越广泛的应用使得对深度强化学习方法的安全性研究成为必须解决的一个课题。深度强化学习系统通常也被称为深度强化学习智能体,深度强化学习智能体基于当前时刻环境所处的状态做出决策。对深度强化学习方法的安全性研究包括攻击方法和防御方法两个方面。针对深度强化学习的攻击方法能够深入研究深度强化学习智能体存在的安全漏洞,从而为防御方法提供信息以及思路,因此深度强化学习的攻击方法的研究存在其重要意义。目前对深度强化学习的攻击方法基本沿用监督学习中的攻击算法,仅仅考虑即时奖励对攻击的影响,而没有考虑到累积奖励对攻击的影响,欠缺有效性和针对性。专利技术内容本专利技术本文档来自技高网...

【技术保护点】
1.一种基于敏感度的深度强化学习智能体攻击方法,其特征在于,包括以下步骤:/n1)在初始位置构造滑动窗口,每隔一个回合将滑动窗口在输入图像上分别沿着横坐标轴和纵坐标轴根据滑动步伐滑动,直至滑动窗口到达最终位置;/n2)分析滑动窗口内的像素点对深度强化学习智能体输出的累积奖励的影响,并计算像素点的敏感度;/n3)根据像素点的敏感度和攻击成本,在输入图像上挑选最敏感的像素点,构造敏感点集合;/n4)对敏感点集合中的像素点,利用梯度进行攻击。/n

【技术特征摘要】
1.一种基于敏感度的深度强化学习智能体攻击方法,其特征在于,包括以下步骤:
1)在初始位置构造滑动窗口,每隔一个回合将滑动窗口在输入图像上分别沿着横坐标轴和纵坐标轴根据滑动步伐滑动,直至滑动窗口到达最终位置;
2)分析滑动窗口内的像素点对深度强化学习智能体输出的累积奖励的影响,并计算像素点的敏感度;
3)根据像素点的敏感度和攻击成本,在输入图像上挑选最敏感的像素点,构造敏感点集合;
4)对敏感点集合中的像素点,利用梯度进行攻击。


2.根据权利要求1所述的一种基于敏感度的深度强化学习智能体攻击方法,其特征在于:在步骤1)中,每个滑动窗口内包含相同数目的像素点:
Wi+1=slide(Wi,dx,dy),i=1,2,...,N
Wi={f(x1,y1),f(x2,y2),...,f(xM,yM)}
式中,Wi表示第i个滑动窗口,slide()表示滑动函数,dx和dy分别表示在横坐标轴和纵坐标轴上的滑动步伐;f(xj,yj),j=1,2,...,M表示输入图像上横坐标为xj纵坐标为yj的像素点,M为一个滑动窗口中包含的像素点的数目。


3.根据权利要求1所述的一种基于敏感度的深度强化学习智能体攻击方法,其特征在于:在步骤2)中,对滑动窗口内的像素点进行扰动,分析扰动对深度强化学习智能体输出的累积奖励的影响,计算像素点的敏感度,包括以下步骤:
2.1)在滑动窗口内的像素点上叠加扰动,即由原始状态生成干扰状态:



式中,f(x,y)表示输入图像上横坐标为x纵坐标为y的像素点;Wi,i=1,2,...,N表示第i个滑动窗口;α表示干扰的程度,sign()表示符号函数,Loss表示深度强化学习智能体的损失函数;
2.2)叠加扰动...

【专利技术属性】
技术研发人员:陈百基王雅轩
申请(专利权)人:华南理工大学
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1