基于动态贝叶斯博弈的智能体训练方法及装置制造方法及图纸

技术编号:39515523 阅读:10 留言:0更新日期:2023-11-25 18:52
本发明专利技术公开了基于动态贝叶斯博弈的智能体训练方法及装置,本发明专利技术属于网络空间安全和人工智能安全领域;该方法在智能体训练阶段引入虚拟攻击者,智能体与虚拟攻击者协同训练,将常规的马尔可夫决策过程转换为两智能体马尔可夫决策过程

【技术实现步骤摘要】
基于动态贝叶斯博弈的智能体训练方法及装置


[0001]本专利技术属于网络空间安全和人工智能安全
,特别是涉及基于动态贝叶斯博弈的智能体训练方法及装置


技术介绍

[0002]深度强化学习目前已被应用到网络空间安全

下一代互联网

机器人

自动驾驶

医疗

风控等多个领域,如基于强化学习的智能路由

基于强化学习的拥塞控制等

一般地,强化学习是一类用于解决智能体如何与环境交互从而最大化累积回报的方法,可以使用马尔可夫决策过程五元组
MDP

(S,A,T,R,
γ
)
表示

其中,
S
表示智能体的状态空间,即智能体在环境中可能的状态的集合;
A
表示智能体的动作空间,即智能体可选的动作的集合;
T
表示状态转移函数,用于描述智能体执行动作后,可能到达的下一状态的概率分布;
R
表示奖励函数,即智能体做出动作后从环境中取得的收益;
γ
表示回报的衰减因子

深度强化学习将深度学习技术与强化学习相结合,智能体利用神经网络做出决策

深度强化学习的代表算法有
Deep Q

Learning(DQN),Trust Region Policy Optimization(TRPO),Deep Deterministic Policy Gradient(DDPG)


[0003]深度强化学习对抗防御技术是深度强化学习安全研究的一个分支

特别是在网络空间安全领域,深度强化学习作为一种工具,其技术本身的安全漏洞直接影响到网络空间安全

大量研究已证明,深度强化学习所依赖的神经网络本身并不鲁棒,容易遭受各类攻击

而神经网络的黑盒性质导致人们难以对神经网络被攻击的位置和机理做出分析,高效的防御方法少之又少

深度强化学习虽然发扬了神经网络决策的优势,但仍尚未克服其稳定性差的劣势

常见的针对深度强化学习的攻击技术可分为黑盒攻击和白盒攻击,而白盒攻击又可分为基于状态空间的攻击,基于动作空间的攻击,基于奖励的攻击等等

而主流的防御方法研究则集中于对抗训练,博弈论,神经网络验证等领域

[0004]动态贝叶斯博弈又称为不完全信息动态博弈,是动态博弈的一种

动态博弈指的是博弈过程中参与人的行动有先后顺序,后行动者可以观察到先行动者所选择的行动,并对之后的决策作出调整

动态贝叶斯博弈是指,动态博弈中至少有一名参与人对其他参与人的类型
(
如策略

支付函数
)
等不了解

常见的处理分析动态贝叶斯博弈的工具是海萨尼转换,通过引入虚拟参与人,并使该参与人能够按照一定概率分布随机指定信息不透明的参与人的类型,从而将不完全信息动态博弈转换为多一博弈阶段的完全但不完美信息动态博弈

当多个智能体同时存在于智能体所处的环境中时,智能体在更新策略时会受到其它智能体策略的影响,智能体之间的协调性不足,导致环境具有非静态性;最后是当智能体所处的环境复杂时,智能体需要很多的探索才能得到积极的奖励值,导致算法复杂度很高


技术实现思路

[0005]本专利技术旨在至少在一定程度上解决相关技术中的技术问题之一

[0006]为此,本专利技术的目的是提出一种基于动态贝叶斯博弈的智能体训练方法,基于深
度强化学习的智能体能够兼顾决策准确性和鲁棒性,能够训练得到抵抗恶意攻击的智能体模型

[0007]本专利技术的另一个目的在于提出一种基于动态贝叶斯博弈的智能体训练装置

[0008]为达上述目的,本专利技术一方面提出一种基于动态贝叶斯博弈的智能体训练方法,所述方法包括以下步骤:
[0009]初始化智能体相关网络参数和虚拟攻击者决策网络参数,并基于初始化后的智能体相关网络和虚拟攻击者决策网络进行网络训练;其中,智能体相关网络,包括智能体推断网络和智能体决策网络;
[0010]基于智能体决策网络从智能体所在的环境信息中获取第一奖励,记录为第一样本,并放入至智能体的经验回放池,以及基于虚拟攻击者决策网络从智能体所处的环境信息中得到第二奖励,并记录为第二样本以放入至虚拟攻击者的经验回放池;其中,所述第一样本和第二样本分别为在智能体所处的环境下与智能体动作信息相关的一个五元组和一个四元组;
[0011]基于第一训练数据

第二训练数据和第三训练数据分别对应训练虚拟攻击者决策网络

智能体推断网络和智能体决策网络以得到训练好的虚拟攻击者决策网络

训练好的智能体推断网络和训练好的智能体决策网络;其中,所述第一训练数据是从虚拟攻击者的经验回放池中随机采样得到的,所述第二训练数据和第三训练数据是分别从智能体的经验回放池中随机采样得到的;
[0012]基于训练好的虚拟攻击者决策网络

训练好的智能体推断网络和训练好的智能体决策网络得到训练好的智能体以进行智能体决策

[0013]另外,根据本专利技术上述实施例的基于动态贝叶斯博弈的智能体训练方法还可以具有以下附加的技术特征:
[0014]进一步地,在本专利技术的一个实施例中,所述五元组,包括智能体所处的环境状态

智能体采取的动作

智能体执行动作后到达的下一个状态

智能体执行动作到达下一个状态获得的奖励和智能体的状态价值函数;所述推断网络用于生成虚拟攻击者是否发动攻击的概率分布;所述智能体决策网络,包括常态决策网络和防御决策网络

[0015]进一步地,在本专利技术的一个实施例中,所述基于智能体决策网络从智能体所在的环境信息中获取第一奖励,记录为第一样本,并放入至智能体的经验回放池,包括:
[0016]所述智能体推断网络输出虚拟攻击者在当前时间步发生攻击概率的智能体决策数据;
[0017]当攻击概率大于等于预设概率阈值时,利用预设算法和防御决策网络选择并执行第一动作;
[0018]当攻击概率小于所述预设概率阈值时,利用预设算法和常态决策网络选择并执行第二动作;
[0019]在动作执行完毕后,智能体从所处的环境信息中得到第一奖励,记录为一个五元组,并放入智能体的经验回放池

[0020]进一步地,在本专利技术的一个实施例中,在所述记录为一个五元组,并放入智能体的经验回放池之后,所述方法,还包括:从智能体的经验回放池中取出当前时间步存放的最本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于动态贝叶斯博弈的智能体训练方法,其特征在于,所述方法包括以下步骤:初始化智能体相关网络参数和虚拟攻击者决策网络参数,并基于初始化后的智能体相关网络和虚拟攻击者决策网络进行网络训练;其中,智能体相关网络,包括智能体推断网络和智能体决策网络;基于智能体决策网络从智能体所在的环境信息中获取第一奖励,记录为第一样本,并放入至智能体的经验回放池,以及基于虚拟攻击者决策网络从智能体所处的环境信息中得到第二奖励,并记录为第二样本以放入至虚拟攻击者的经验回放池;其中,所述第一样本和第二样本分别为在智能体所处的环境下与智能体动作信息相关的一个五元组和一个四元组;基于第一训练数据

第二训练数据和第三训练数据分别对应训练虚拟攻击者决策网络

智能体推断网络和智能体决策网络以得到训练好的虚拟攻击者决策网络

训练好的智能体推断网络和训练好的智能体决策网络;其中,所述第一训练数据是从虚拟攻击者的经验回放池中随机采样得到的,所述第二训练数据和第三训练数据是分别从智能体的经验回放池中随机采样得到的;基于训练好的虚拟攻击者决策网络

训练好的智能体推断网络和训练好的智能体决策网络得到训练好的智能体以进行智能体决策
。2.
根据权利要求1所述的方法,其特征在于,所述五元组,包括智能体所处的环境状态

智能体采取的动作

智能体执行动作后到达的下一个状态

智能体执行动作到达下一个状态获得的奖励和智能体的状态价值函数;所述推断网络用于生成虚拟攻击者是否发动攻击的概率分布;所述智能体决策网络,包括常态决策网络和防御决策网络
。3.
根据权利要求2所述的方法,其特征在于,所述基于智能体决策网络从智能体所在的环境信息中获取第一奖励,记录为第一样本,并放入至智能体的经验回放池,包括:所述智能体推断网络输出虚拟攻击者在当前时间步发生攻击概率的智能体决策数据;当攻击概率大于等于预设概率阈值时,利用预设算法和防御决策网络选择并执行第一动作;当攻击概率小于所述预设概率阈值时,利用预设算法和常态决策网络选择并执行第二动作;在动作执行完毕后,智能体从所处的环境信息中得到第一奖励,记录为一个五元组,并放入智能体的经验回放池
。4.
根据权利要求3所述的方法,其特征在于,在所述记录为一个五元组,并放入智能体的经验回放池之后,所述方法,还包括:从智能体的经验回放池中取出当前时间步存放的最后一个五元组,将取出的五元组添加一个指标得到六元组,并放回智能体的经验回放池以得到调整后的智能体的经验回放池
。5.
根据权利要求4所述的方法,其特征在于,所述基于第一训练数据

第二训练数据和第三训练数据分别对应训练虚拟攻击者决策网络

推断网络和决策网络以得到训练好的虚拟攻击者决策网络

训练好的智能体推断网络和训练好的智能体决策网络,包括:从虚拟攻击者的经验回放池中随机采样第一批次的数据,并修正第二奖励以通过最小化损失函数训练虚拟攻击者决策网络以得到所述训练好的虚拟攻击者决策网络;从调整后的智能体的经验回放池中随机采样第二批次的数据,并将所述第二批次的数
据抽取出的预设特征数据处理成推断网络的输入和标签,以通过最小化损失函数训练智能体推断网络得到所述训练好的智能体推断网络;其中,所述预设特征数据是从每条数据为一个时间步的六元组的第二批次的数据中抽取的;从调整后的智能体的经验回放池中随机采样第三批次的数据,并通过最小化损失函数训练智能体决策网络以得到训练好的常态决策网络和防御决策网...

【专利技术属性】
技术研发人员:徐恪刘自轩赵乙李琦王维强赵闻飙金宏
申请(专利权)人:蚂蚁科技集团股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1