【技术实现步骤摘要】
一种基于模仿学习的深度强化学习策略优化防御方法和装置
本专利技术属于面向深度强化学习的防御领域,具体涉及一种基于模仿学习的深度强化学习策略优化防御方法和装置。
技术介绍
深度强化学习是近年来人工智能备受关注的方向之一,随着强化学习的快速发展和应用,强化学习已经在机器人控制、游戏博弈、计算机视觉、无人驾驶等领域被广泛使用。为了保证深度强化学习在安全攸关领域的安全应用,关键在于分析、发现深度强化学习算法、模型中的漏洞以防止一些别有用心的人利用这些漏洞来进行非法牟利行为。不同于传统机器学习的单步预测任务,深度强化学习系统需要进行多步决策来完成某项任务,而且连续的决策之间还具有高度的相关性。强化学习通常是一个连续决策的过程,其基本思想是通过最大化智能体从环境中获取的累计奖励,从而学习最优策略以达到学习目的。深度强化学习充分利用神经网络作为参数结构,结合了深度学习的感知能力和强化学习的决策能力来优化深度强化学习策略,最终实现从感知输入到决策输出的端到端深度强化学习框架,具有较强的学习能力且应用广泛。但是与机器学习模型相同的是, ...
【技术保护点】
1.一种基于模仿学习的深度强化学习策略优化防御方法,其特征在于,包括以下步骤:/n搭建深度强化学习的智能体自动驾驶模拟环境,基于强化学习中的深度Q网络构建目标智能体,并对目标智能体进行强化学习以优化深度Q网络的参数;/n利用参数优化的深度Q网络产生T个时刻的目标智能体驾驶的状态动作对序列作为专家数据,其中,状态动作对中的动作取值对应Q值最小的动作;/n基于生成式对抗网络构建对抗智能体,并对对抗智能体进行模仿学习,即以专家数据中状态作为生成式对抗网络的输入,同时以专家数据作为标签来监督以优化生成式对抗网络的参数;/n基于对抗智能体产生的状态对目标智能体进行对抗训练,再优化优化 ...
【技术特征摘要】
1.一种基于模仿学习的深度强化学习策略优化防御方法,其特征在于,包括以下步骤:
搭建深度强化学习的智能体自动驾驶模拟环境,基于强化学习中的深度Q网络构建目标智能体,并对目标智能体进行强化学习以优化深度Q网络的参数;
利用参数优化的深度Q网络产生T个时刻的目标智能体驾驶的状态动作对序列作为专家数据,其中,状态动作对中的动作取值对应Q值最小的动作;
基于生成式对抗网络构建对抗智能体,并对对抗智能体进行模仿学习,即以专家数据中状态作为生成式对抗网络的输入,同时以专家数据作为标签来监督以优化生成式对抗网络的参数;
基于对抗智能体产生的状态对目标智能体进行对抗训练,再优化优化深度Q网络的参数,以实现深度强化学习策略优化防御。
2.如权利要求1所述的基于模仿学习的深度强化学习策略优化防御方法,其特征在于,所述深度Q网络包括主Q网络和目标Q网络,其中,主Q网络作为目标智能体的决策网络,目标Q网络作为目标智能体的价值网络,在对目标智能体进行强化学习时,主Q网络根据状态计算的决策Q值作为动作值,并根据动作值产生下一时刻的状态值和奖励值,状态值、动作值以及奖励值均被存储,目标Q网络从存储中取出下一时刻的环境计算目标Q值,并以主Q网络与目标Q网络输出的决策Q值和目标Q值以及累计奖励值来更新主Q网络,同时每隔一段时间将当前主Q网络复制给目标Q网络。
3.如权利要求1所述的基于模仿学习的深度强化学习策略优化防御方法,其特征在于,以决策Q值和和包含累计奖励值的目标Q值的均方差作为损失函数来更新主Q网络。
4.如权利要求1所述的基于模仿学习的深度强化学习策略优化防御方法,其特征在于,所述生成式对抗网络包括生成器和判别器,其中,生成器作为对抗智能体的决策网络,判别器作为对抗智能体的价值网络,在对对抗智能体进行强化学习时,以专家数据中每个状态动作对的状态值作为生成器的输入,生成器根据输入的状态值计...
【专利技术属性】
技术研发人员:陈晋音,章燕,王雪柯,胡书隆,
申请(专利权)人:浙江工业大学,
类型:发明
国别省市:浙江;33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。