基于动态贝叶斯博弈的智能体训练方法及装置制造方法及图纸

技术编号：39515523 阅读：10 留言：0更新日期：2023-11-25 18:52

本发明专利技术公开了基于动态贝叶斯博弈的智能体训练方法及装置，本发明专利技术属于网络空间安全和人工智能安全领域；该方法在智能体训练阶段引入虚拟攻击者，智能体与虚拟攻击者协同训练，将常规的马尔可夫决策过程转换为两智能体马尔可夫决策过程

全部详细技术资料下载

【技术实现步骤摘要】
基于动态贝叶斯博弈的智能体训练方法及装置

[0001]本专利技术属于网络空间安全和人工智能安全
，特别是涉及基于动态贝叶斯博弈的智能体训练方法及装置
。

技术介绍

[0002]深度强化学习目前已被应用到网络空间安全
、
下一代互联网
、
机器人
、
自动驾驶
、
医疗
、
风控等多个领域，如基于强化学习的智能路由
、
基于强化学习的拥塞控制等
。
一般地，强化学习是一类用于解决智能体如何与环境交互从而最大化累积回报的方法，可以使用马尔可夫决策过程五元组
MDP
＝
(S,A,T,R,
γ
)
表示
。
其中，
S
表示智能体的状态空间，即智能体在环境中可能的状态的集合；
A
表示智能体的动作空间，即智能体可选的动作的集合；
T
表示状态转移函数，用于描述智能体执行动作后，可能到达的下一状态的概率分布；
R
表示奖励函数，即智能体做出动作后从环境中取得的收益；
γ
表示回报的衰减因子
。
深度强化学习将深度学习技术与强化学习相结合，智能体利用神经网络做出决策
。
深度强化学习的代表算法有
Deep Q
‑
Learning(DQN),Trust Region Policy Optimization(...

【技术保护点】

【技术特征摘要】
1.
一种基于动态贝叶斯博弈的智能体训练方法，其特征在于，所述方法包括以下步骤：初始化智能体相关网络参数和虚拟攻击者决策网络参数，并基于初始化后的智能体相关网络和虚拟攻击者决策网络进行网络训练；其中，智能体相关网络，包括智能体推断网络和智能体决策网络；基于智能体决策网络从智能体所在的环境信息中获取第一奖励，记录为第一样本，并放入至智能体的经验回放池，以及基于虚拟攻击者决策网络从智能体所处的环境信息中得到第二奖励，并记录为第二样本以放入至虚拟攻击者的经验回放池；其中，所述第一样本和第二样本分别为在智能体所处的环境下与智能体动作信息相关的一个五元组和一个四元组；基于第一训练数据
、
第二训练数据和第三训练数据分别对应训练虚拟攻击者决策网络
、
智能体推断网络和智能体决策网络以得到训练好的虚拟攻击者决策网络
、
训练好的智能体推断网络和训练好的智能体决策网络；其中，所述第一训练数据是从虚拟攻击者的经验回放池中随机采样得到的，所述第二训练数据和第三训练数据是分别从智能体的经验回放池中随机采样得到的；基于训练好的虚拟攻击者决策网络
、
训练好的智能体推断网络和训练好的智能体决策网络得到训练好的智能体以进行智能体决策
。2.
根据权利要求1所述的方法，其特征在于，所述五元组，包括智能体所处的环境状态
、
智能体采取的动作
、
智能体执行动作后到达的下一个状态
、
智能体执行动作到达下一个状态获得的奖励和智能体的状态价值函数；所述推断网络用于生成虚拟攻击者是否发动攻击的概率分布；所述智能体决策网络，包括常态决策网络和防御决策网络
。3.
根据权利要求2所述的方法，其特征在于，所述基于智能体决策网络从智能体所在的环境信息中获取第一奖励，记录为第一样本，并放入至智能体的经验回放池，包括：所述智能体推断网络输出虚拟攻击者在当前时间步发生攻击概率的智能体决策数据；当攻击概率大于等于预设概率阈值时，利用预设算法和防御决策网络选择并执行第一动作；当攻击概率小于所述预设概率阈值时，利用预设算法和常态决策网络选择并执行第二动作；在动作执行完毕后，智能体从所处的环境信息中得到第一奖励，记录为一个五元组，并放入智能体的经验回放池
。4.
根据权利要求3所述的方法，其特征在于，在所述记录为一个五元组，并放入智能体的经验回放池之后，所述方法，还包括：从智能体的经验回放池中取出当前时间步存放的最后一个五元组，将取出的五元组添加一个指标得到六元组，并放回智能体的经验回放池以得到调整后的智能体的经验回放池
。5.
根据权利要求4所述的方法，其特征在于，所述基于第一训练数据
、
第二训练数据和第三训练数据分别对应训练虚拟攻击者决策网络
、
推断网络和决策网络以得到训练好的虚拟攻击者决策网络
、
训练好的智能体推断网络和训练好的智能体决策网络，包括：从虚拟攻击者的经验回放池中随机采样第一批次的数据，并修正第二奖励以通过最小化损失函数训练虚拟攻击者决策网络以得到所述训练好的虚拟攻击者决策网络；从调整后的智能体的经验回放池中随机采样第二批次的数据，并将所述第二批次的数
据抽取出的预设特征数据处理成推断网络的输入和标签，以通过最小化损失函数训练智能体推断网络得到所述训练好的智能体推断网络；其中，所述预设特征数据是从每条数据为一个时间步的六元组的第二批次的数据中抽取的；从调整后的智能体的经验回放池中随机采样第三批次的数据，并通过最小化损失函数训练智能体决策网络以得到训练好的常态决策网络和防御决策网...

【专利技术属性】
技术研发人员：徐恪，刘自轩，赵乙，李琦，王维强，赵闻飙，金宏，
申请(专利权)人：蚂蚁科技集团股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人