【技术实现步骤摘要】
基于对抗过程仿真模型的策略收益预测方法和装置
[0001]本申请涉及人工智能
,特别是涉及一种基于对抗过程仿真模型的策略收益预测方法和装置。
技术介绍
[0002]近年来,伴随着航空、电子信息技术以及控制理论的不断发展,无人机领域被各国所重视,无人机技术得到长足发展,在各领域越来越受重视。伴随着无人机所涉及的应用领域增加,无人机带来的安全威胁也逐渐增加。例如在机场、监狱、水(核)电站、重要会议、大型集会和体育赛事等重要场所,由于场所安全性等要求,对无人机往往会采取禁飞措施。
[0003]当未经许可的无人机进入重要场所后,需要对无人机进行反制和追捕,减少其带来的风险和损失。除了无线电干扰、诱骗控制等反制手段外,还有使用大型无人机、小型无人机集群进行拦截捕获、直接摧毁等方式,这就涉及到双方无人机攻防对抗,攻防双方都会采用相应策略来达到各自的目的,例如,攻击方有二拦一、三拦一等拦截策略,防御方也有降低、升空、快速返航等逃逸策略。因此,在攻防双方博弈对抗过程中,快速计算某个攻击策略和防御策略给双方带来的博弈收益,对双方 ...
【技术保护点】
【技术特征摘要】
1.一种基于对抗过程仿真模型的策略收益预测方法,其特征在于,所述方法包括:获取目标无人机攻防双方各自对应的当前群体策略信息、当前个体策略信息和当前个体状态信息;将所述当前群体策略信息、所述当前个体策略信息和所述当前个体状态信息输入对抗过程仿真模型,输出得到所述目标无人机攻防双方对应的目标策略收益和至少一个目标事件;所述目标策略收益包括攻击方策略收益和防御方策略收益;其中,所述对抗过程仿真模型通过以下方式训练得到:对无人机攻防对抗数据进行采样,得到样本数据集;所述样本数据集包括多个训练样本;多个所述训练样本为标注有各自对应的无人机攻防双方的真实事件和真实策略收益的样本数据;基于多个所述训练样本,对初始深度神经网络进行训练,得到所述对抗过程仿真模型。2.根据权利要求1所述的基于对抗过程仿真模型的策略收益预测方法,其特征在于,所述初始深度神经网络包括初始特征提取网络和初始预测网络;基于多个所述训练样本,对初始深度神经网络进行训练,得到所述对抗过程仿真模型的步骤,包括:针对任一所述训练样本,将所述训练样本对应的群体策略信息、个体策略信息和个体状态信息输入所述初始特征提取网络,输出得到综合特征向量;将所述综合特征向量输入所述初始预测网络,输出得到针对所述无人机攻防双方的预测事件和预测策略收益;基于所述预测事件和所述训练样本对应的真实事件,确定第一损失值;并基于所述预测策略收益和所述训练样本对应的真实策略收益,确定第二损失值;基于所述第一损失值和所述第二损失值,对所述初始特征提取网络和所述初始预测网络的网络参数进行更新,并执行针对任一所述训练样本,将所述训练样本对应的群体策略信息、个体策略信息和个体状态信息输入所述初始特征提取网络,输出得到综合特征向量的步骤,直到所述初始深度神经网络满足训练截止条件,得到所述对抗过程仿真模型。3.根据权利要求2所述的基于对抗过程仿真模型的策略收益预测方法,其特征在于,所述初始特征提取网络包括群体策略特征提取子网络、个体策略特征提取子网络和个体状态特征提取子网络;将所述训练样本对应的群体策略信息、个体策略信息和个体状态信息输入所述初始特征提取网络,输出得到综合特征向量的步骤,包括:将所述训练样本对应的群体策略信息和个体策略信息输入所述群体策略特征提取子网络,输出得到群体策略特征向量;将所述训练样本对应的个体策略信息输入所述个体策略特征提取子网络,输出得到个体策略特征向量;将所述训练样本对应的个体状态信息输入所述个体状态特征提取子网络,输出得到个体状态特征向量;对所述群体策略特征向量、所述个体策略特征向量和所述个体状态特征向量进行特征融合操作,得到所述综合特征向量。4.根据权利要求2所述的基于对抗过程仿真模型的策略收益预测方法,其特征在于,所
述初始预测网络包括事件序列预测子网络和策略收益预测子网络;将所述综合特征向量输入所述初始预测网络,输出得到针对无人机攻防双方的预测事件和预测策略收益的步骤,包括:将所述综合特征向量输入所述事件序列预测子网络,输出得到针对无人机攻防双方的预测事件;将所述综合特征向量输入所述策略收益预测子网络,输出得到针对无人机攻防双方的预测策略收益。5.根据权利要求3所述的基于对抗过程仿真模型的策略收益预测方法,其特征在于,对所述群体策略特征向量、所述个体策略特征向量和所述个体状态特征向量进行特征融合操作,得到所述综合特征向量的步骤,包括:按照以下公式,对所述群体策略特征向量、所述个体策略特征向量和所述个体状态特征向量进行特征融合操作,得到所述综合特征向量:G=w1
×
G1+w2
×
G2+w3
×
G3;w1+w2+w3=1;其中,G表示综合特征向量,G1表示群体策略特征向量,w1表示群体策略特征向量对应的第一权重值,G2表示个体策略特征向量,w2表示个体策略特征向量对应的第二权重值,G3表示个体状态特征向量,w3表示个体状态特征向量对应的第三权重值。6....
【专利技术属性】
技术研发人员:李冬雪,彭渊,曹扬,吴京辉,赵思聪,胡瑞雪,
申请(专利权)人:北京航天晨信科技有限责任公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。