【技术实现步骤摘要】
面向深度强化学习对抗攻击的模型增强防御方法
本专利技术属于深度学习安全领域,具体涉及一种面向深度强化学习对抗攻击的模型增强防御方法。
技术介绍
人工智能的飞速发展,越来越多的领域都开始使用AI技术。强化学习是人工智能领域的一个新兴技术,受关注度就越来越高。其研究领域包括知识表示、机器感知、机器思维、机器学习、机器行为,各种领域都取得了一定成就。比如2014年GoogleDeepMind开发的人工智能围棋软件——阿尔法围棋(AlphaGo),就利用了深度学习和强化学习。强化学习也是一种多学科交叉的产物,它本身是一种决策科学,所以在许多学科分支中都可以找到它的身影。强化学习应用广泛,比如:直升机特技飞行、游戏AI、投资管理、发电站控制、让机器人模仿人类行走等。在游戏领域,为了提高用户体验,在很多场景下需要训练AI自动玩游戏,目前,游戏训练场景接受度最高的是深度强化学习。自动驾驶领域也在不断探索中,强度强化学习的出现,对其发展也是起到很大推动作用。深度强化学习模型充分利用了卷积神经网络处理大数据的能力,将场景作为输入,其输出可以使动作概率也可以是动作评价值。然而,卷积神经网络极易受到对抗性攻击,专家学者们也提出了很多攻击方法和防御方法,目前已有的防御方法包括:(1)利用视觉预测模型和判别器及外加防御模型对强化学习模型进行防御,如申请号为CN201911184051.3公开的一种面向深度强化学习模型对抗攻击的防御方法;(2)基于强化学习的不安全跨网站脚本(XSS)防御系统识别方法,如申请号为CN2019105 ...
【技术保护点】
1.一种面向深度强化学习对抗攻击的模型增强防御方法,其特征在于,包括以下步骤:/n(1)根据A3C模型,从自动驾驶场景中采集每个线程训练所需的样本数据,该样本数据包括环境状态、动作以及奖励值;/n(2)针对每个线程构建由子Actor网络模型和子Critic网络模型组成的子强化学习模型,设定子Actor网络模型的Actor损失函数为公式(1),在子Critic网络模型参数中增加噪声,并设定Critic网络模型的Critic损失函数为公式(2);/n
【技术特征摘要】
1.一种面向深度强化学习对抗攻击的模型增强防御方法,其特征在于,包括以下步骤:
(1)根据A3C模型,从自动驾驶场景中采集每个线程训练所需的样本数据,该样本数据包括环境状态、动作以及奖励值;
(2)针对每个线程构建由子Actor网络模型和子Critic网络模型组成的子强化学习模型,设定子Actor网络模型的Actor损失函数为公式(1),在子Critic网络模型参数中增加噪声,并设定Critic网络模型的Critic损失函数为公式(2);
其中,l**为Actor损失函数,θ′是子Actor网络模型的参数,w′是子critic网络模型的参数,q是计算的长期累积奖励值,Q(si;w′)是在参数w′下子critic网络模型针对环境状态si的输出结果,π(ai|si;θ′)表示在参数θ′下子Actor网络模型针对环境状态数据si的输出策略的概率分布,m是智能体每步执行动作时的所能选择的所有可能的动作个数;
其中,w*是加入噪声的子critic网络模型的参数,q是计算的长期累积奖励值,Q*(si,ai;w*)是在参数w*下子critic网络模型针对环境状态si和动作ai的输出结果,μ是可学习的参数向量,μ∈Rq×p,ε是零均值噪声的向量,表示按元素相乘,σ∈Rq×p是噪声系的数;
(3)针对每个线程对应的子强化学习模型,根据Actor损失函数和线程对应的样本数据对子Actor网络模型进行优化学习以更新子Actor网络模型参数;根据Critic损失函数和线程对应的样本数据对子Critic网络模型进行优化学习以更新子Critic网络模型参数;
(4)利用子强化学习模型的参数更新A3C模型对应的由主Actor网络模型和主Critic网络模型组成的主强化学习模型的参数,实现对主强化学习模型的训练,得到能够抵抗对抗攻击的主强化学习模型。
2.如权利要求1所述的面向深度强化学习对抗攻击的模型增强防御方法,其特征在于,所述子Actor网络模型和主Actor网络模型包括依次连接的卷积层组和全连接层组,卷积层组包括至少3个依次连接的卷积层,全连接层组包括至少3个依次连接的全连接层。
3.如权利要求1所述的面向深度强化学习对抗攻击的模型增强防御方法,其特征在于,所述子Critic网络模型和主Critic网络模型包括依次连接的卷积层组和全连接层组,卷积层组包括至少3个依次连接的卷积...
【专利技术属性】
技术研发人员:陈晋音,王雪柯,章燕,
申请(专利权)人:浙江工业大学,
类型:发明
国别省市:浙江;33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。