【技术实现步骤摘要】
一种基于专注网络的集群对抗方法及装置
[0001]本专利技术涉及无人集群领域,尤其涉及一种基于专注网络的集群对抗方法、装置、设备、介质和产品。
技术介绍
[0002]无人集群可以通过合作和竞争形成集群行为,完成个体无法实现的复杂任务,比如集群对抗、覆盖和追逃围捕等,提高任务的完成度、执行效率和成功概率等。近些年,多智能体强化学习作为无人集群系统中最有可能成为通用人工智能的技术路线之一,是众多研究人员的研究热点,具有非常大的应用潜力,同时也存在很大的挑战。相比于单智能体强化学习问题,多智能体的强化学习由于需要考虑智能体与环境、邻居智能体的交互关系和优化策略,显得更为复杂。尤其,对于集群对抗问题,智能体不仅要与邻居智能体展开合作,还与对手智能体进行竞争和对抗。
[0003]现在有不少针对集群协同对抗的研究,有些采用深度图神经网络的方法,能够促进和引导集群完成任务的集群协同行为,但需要所有智能体间进行低延迟通信,以满足频繁的信息交互,这导致算法仿真与分布式应用存在较大差距。因此,有人提出基于注意力机制的集群协同方法,从多种 ...
【技术保护点】
【技术特征摘要】
1.一种基于专注网络的集群对抗方法,其特征在于,包括:获取集群中智能体的自身观测状态和环境观测状态;基于所述自身观测状态和环境观测状态,通过专注网络,确定估计威胁评估参数和环境状态特征,所述专注网络用于对所述自身观测状态和环境观测状态的特征进行融合确定所述估计威胁评估参数和环境状态特征;将所述估计威胁评估参数和所述环境状态特征输入行动
‑
评价网络,得到所述智能体的动作策略,使所述智能体根据所述动作策略完成动作。2.根据权利要求1所述的基于专注网络的集群对抗方法,其特征在于,所述基于所述自身观测状态和环境观测状态,通过专注网络,确定估计威胁评估参数和环境状态特征,包括:通过多层感知机编码网络对所述自身观测状态进行特征提取,得到自身观测状态特征矩阵;通过所述多层感知机编码网络对所述环境观测状态进行特征提取,得到环境观测状态特征矩阵;根据所述自身观测状态特征矩阵和所述环境观测状态特征矩阵,通过专注网络,确定估计威胁评估参数和环境状态特征。3.根据权利要求2所述的基于专注网络的集群对抗方法,其特征在于,所述根据所述自身观测状态特征矩阵和所述环境观测状态特征矩阵,通过专注网络,确定估计威胁评估参数和环境状态特征,包括:基于所述自身观测状态特征矩阵,通过所述专注网络的查询模块确定查询目标特征;基于所述环境观测状态特征矩阵,通过所述专注网络的键模块确定键目标特征;基于所述查询目标特征和所述键目标特征,通过softmax函数确定专注权重系数;基于所述专注权重系数和所述环境观测状态特征矩阵,通过所述专注网络的排序模块确定新的状态特征矩阵;基于所述专注权重系数,通过所述排序模块确定新的专注权重系数;基于所述新的专注权重系数和所述新的状态特征矩阵,通过所述专注网络的动机模块确定所述估计威胁评估参数;基于所述新的状态特征矩阵,通过所述专注网络的截断模块,确定截断后的所述新的状态特征矩阵;基于所述截断后的所述新的状态特征矩阵,通过特征堆叠函数,确定所述环境状态特征。4.根据权利要求1所述的基于专注网络的集群对抗方法,其特征在于,所述将所述估计威胁评估参数和所述环境状态特征输入行动
‑
评价网络,得到所述智能体的动作策略,包括:将所述估计威胁评估参数输入所述行动
‑
评价网络的评价网络,得到策略优势评价系数;将所述环境状态特征输入所述行动
‑
评价网络的行动网络,得到动作策略,所述策略优势评价系数用于评价所述动作策略。5.一种基于专注网络的集...
【专利技术属性】
技术研发人员:丘腾海,付清旭,蒲志强,刘振,易建强,
申请(专利权)人:中国科学院自动化研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。