面向深度强化学习对抗攻击的模型增强防御方法技术

技术编号:26689991 阅读:39 留言:0更新日期:2020-12-12 02:39
本发明专利技术公开了一种面向深度强化学习对抗攻击的模型增强防御方法,包括:(1)根据A3C模型,从自动驾驶场景中采集每个线程训练所需的样本数据;(2)针对每个线程构建由子Actor网络模型和子Critic网络模型组成的子强化学习模型,设定Actor损失函数和Critic损失函数;(3)针对每个线程对应的子强化学习模型,根据Actor损失函数对子Actor网络模型进行优化学习;根据Critic损失函数对子Critic网络模型进行优化学习;(4)利用子强化学习模型的参数更新A3C模型对应的主强化学习模型的参数,实现对主强化学习模型的训练,得到能够抵抗对抗攻击的主强化学习模型。

【技术实现步骤摘要】
面向深度强化学习对抗攻击的模型增强防御方法
本专利技术属于深度学习安全领域,具体涉及一种面向深度强化学习对抗攻击的模型增强防御方法。
技术介绍
人工智能的飞速发展,越来越多的领域都开始使用AI技术。强化学习是人工智能领域的一个新兴技术,受关注度就越来越高。其研究领域包括知识表示、机器感知、机器思维、机器学习、机器行为,各种领域都取得了一定成就。比如2014年GoogleDeepMind开发的人工智能围棋软件——阿尔法围棋(AlphaGo),就利用了深度学习和强化学习。强化学习也是一种多学科交叉的产物,它本身是一种决策科学,所以在许多学科分支中都可以找到它的身影。强化学习应用广泛,比如:直升机特技飞行、游戏AI、投资管理、发电站控制、让机器人模仿人类行走等。在游戏领域,为了提高用户体验,在很多场景下需要训练AI自动玩游戏,目前,游戏训练场景接受度最高的是深度强化学习。自动驾驶领域也在不断探索中,强度强化学习的出现,对其发展也是起到很大推动作用。深度强化学习模型充分利用了卷积神经网络处理大数据的能力,将场景作为输入,其输出可以使动作概率也可以是动作评价值。然而,卷积神经网络极易受到对抗性攻击,专家学者们也提出了很多攻击方法和防御方法,目前已有的防御方法包括:(1)利用视觉预测模型和判别器及外加防御模型对强化学习模型进行防御,如申请号为CN201911184051.3公开的一种面向深度强化学习模型对抗攻击的防御方法;(2)基于强化学习的不安全跨网站脚本(XSS)防御系统识别方法,如申请号为CN201910567203.1公开的一种基于强化学习的不安全XSS防御系统识别方法。目前提出防御方法比较多的是利用强化学习做防御而不是对强化学习模型进行防御。强化学习的安全性必然会成为其发展的重要隐患因素之一。
技术实现思路
为了解决自动驾驶场景中,利用深度强化学习被攻击产生不准确的决策造成安全隐患的问题,本专利技术提供了一种面向深度强化学习对抗攻击的模型增强防御方法。本专利技术的技术方案为:一种面向深度强化学习对抗攻击的模型增强防御方法,包括以下步骤:(1)采用A3C算法从自动驾驶场景中采集每个线程训练所需的样本数据,该样本数据包括环境状态、动作以及奖励值;(2)针对每个线程构建由子Actor网络模型和子Critic网络模型组成的子强化学习模型,设定子Actor网络模型的Actor损失函数为公式(1),在子Critic网络模型参数中增加噪声,并设定Critic网络模型的Critic损失函数为公式(2);其中,l**为Actor损失函数,θ′是子Actor网络模型的参数,w′是子critic网络模型的参数,q是计算的长期累积奖励值,Q(si;w′)是在参数w′下子critic网络模型针对环境状态si的输出结果,π(ai|si;θ′)表示在参数θ′下子Actor网络模型针对环境状态数据si的输出策略的概率分布,m是智能体每步执行动作时的所能选择的所有可能的动作个数;其中,w*是加入噪声的子critic网络模型的参数,q是计算的长期累积奖励值,Q*(si,ai;w*)是在参数w*下子critic网络模型针对环境状态si和动作ai的输出结果,μ是可学习的参数向量,μ∈Rq×p,ε是零均值噪声的向量,表示按元素相乘,σ∈Rq×p是噪声系的数;(3)针对每个线程对应的子强化学习模型,根据Actor损失函数和线程对应的样本数据对子Actor网络模型进行优化学习以更新子Actor网络模型参数;根据Critic损失函数和线程对应的样本数据对子Critic网络模型进行优化学习以更新子Critic网络模型参数;(4)利用子强化学习模型的参数更新A3C算法对应的由主Actor网络模型和主Critic网络模型组成的主强化学习模型的参数,实现对主强化学习模型的训练,得到能够抵抗对抗攻击的主强化学习模型。优选地,所述子Actor网络模型和主Actor网络模型包括依次连接的卷积层组和全连接层组,卷积层组包括至少3个依次连接的卷积层,全连接层组包括至少3个依次连接的全连接层。优选地,所述子Critic网络模型和主Critic网络模型包括依次连接的卷积层组和全连接层组,卷积层组包括至少3个依次连接的卷积层,全连接层组包括至少3个依次连接的全连接层。优选地,根据Actor损失函数和线程对应的样本数据对子Actor网络模型进行优化学习以更新子Actor网络模型参数时,将环境状态si作为子Actor网络模型的输入,计算子Actor网络模型根据输入的环境状态si计算获得的策略动作ai;根据Actor损失函数计算Actor损失函数值,然后,按照公式(3)更新子Actor网络模型的参数;优选地,根据Critic损失函数和线程对应的样本数据对子Critic网络模型进行优化学习以更新子Critic网络模型参数时,将环境状态si和策略动作ai作为子Critic网络模型的输入,计算子Critic网络模型根据输入的环境状态si和策略动作ai计算获得的Q*值,根据Critic损失函数计算Critic损失函数值,然后,按照公式(4)更新子Critic网络模型的参数;利用子强化学习模型的参数更新A3C算法对应的由主Actor网络模型和主Critic网络模型组成的主强化学习模型的参数包括:在训练主强化学习模型时,针对主Actor网络模型,每隔n步从子Actor网络模型中复制参数到主Actor网络模型中,利用子Actor网络模型的参数更新主Actor网络模型的参数,直到更新步数达到预设步数停止更新;针对主Critic网络模型,每隔n步从子Critic网络模型中复制参数到主Critic网络模型中,利用子Critic网络模型的参数更新主Critic网络模型的参数,直到更新步数达到预设步数停止更新。应用时,从自动驾驶场景中采集环境状态数据,输入至训练好的主强化学习模型中,经计算输出决策动作。与现有技术相比,本专利技术具有的有益效果至少包括:本专利技术提供的面向深度强化学习对抗攻击的模型增强防御方法中,通过改进Actor损失函数和Critic损失函数来增加状态逆干扰,来提高子Actor网络模型和子Critic网络模型对干扰数据样本的鲁棒性,以此来提高子强化学习模型的预测准确性,同时采用A3模型,利用多线程的子强化学习模型参数来更新主强化学习模型参数,进一步提升了主强化学习模型的预测准确性,因此能够避免因为主强化学习模型被对抗攻击导致的安全风险,实现了对深度强化学习对抗攻击的模型增强防御。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动前提下,还可以根据这些附图获得其他附图。图1是实施例提供的面向深度强化学习对抗攻击的模型本文档来自技高网
...

【技术保护点】
1.一种面向深度强化学习对抗攻击的模型增强防御方法,其特征在于,包括以下步骤:/n(1)根据A3C模型,从自动驾驶场景中采集每个线程训练所需的样本数据,该样本数据包括环境状态、动作以及奖励值;/n(2)针对每个线程构建由子Actor网络模型和子Critic网络模型组成的子强化学习模型,设定子Actor网络模型的Actor损失函数为公式(1),在子Critic网络模型参数中增加噪声,并设定Critic网络模型的Critic损失函数为公式(2);/n

【技术特征摘要】
1.一种面向深度强化学习对抗攻击的模型增强防御方法,其特征在于,包括以下步骤:
(1)根据A3C模型,从自动驾驶场景中采集每个线程训练所需的样本数据,该样本数据包括环境状态、动作以及奖励值;
(2)针对每个线程构建由子Actor网络模型和子Critic网络模型组成的子强化学习模型,设定子Actor网络模型的Actor损失函数为公式(1),在子Critic网络模型参数中增加噪声,并设定Critic网络模型的Critic损失函数为公式(2);



其中,l**为Actor损失函数,θ′是子Actor网络模型的参数,w′是子critic网络模型的参数,q是计算的长期累积奖励值,Q(si;w′)是在参数w′下子critic网络模型针对环境状态si的输出结果,π(ai|si;θ′)表示在参数θ′下子Actor网络模型针对环境状态数据si的输出策略的概率分布,m是智能体每步执行动作时的所能选择的所有可能的动作个数;



其中,w*是加入噪声的子critic网络模型的参数,q是计算的长期累积奖励值,Q*(si,ai;w*)是在参数w*下子critic网络模型针对环境状态si和动作ai的输出结果,μ是可学习的参数向量,μ∈Rq×p,ε是零均值噪声的向量,表示按元素相乘,σ∈Rq×p是噪声系的数;
(3)针对每个线程对应的子强化学习模型,根据Actor损失函数和线程对应的样本数据对子Actor网络模型进行优化学习以更新子Actor网络模型参数;根据Critic损失函数和线程对应的样本数据对子Critic网络模型进行优化学习以更新子Critic网络模型参数;
(4)利用子强化学习模型的参数更新A3C模型对应的由主Actor网络模型和主Critic网络模型组成的主强化学习模型的参数,实现对主强化学习模型的训练,得到能够抵抗对抗攻击的主强化学习模型。


2.如权利要求1所述的面向深度强化学习对抗攻击的模型增强防御方法,其特征在于,所述子Actor网络模型和主Actor网络模型包括依次连接的卷积层组和全连接层组,卷积层组包括至少3个依次连接的卷积层,全连接层组包括至少3个依次连接的全连接层。


3.如权利要求1所述的面向深度强化学习对抗攻击的模型增强防御方法,其特征在于,所述子Critic网络模型和主Critic网络模型包括依次连接的卷积层组和全连接层组,卷积层组包括至少3个依次连接的卷积...

【专利技术属性】
技术研发人员:陈晋音王雪柯章燕
申请(专利权)人:浙江工业大学
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1