System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于分布式强化学习的复杂场景智能体训练方法及其硬件技术_技高网

基于分布式强化学习的复杂场景智能体训练方法及其硬件技术

技术编号:40918030 阅读:2 留言:0更新日期:2024-04-18 14:44
本发明专利技术涉及基于分布式强化学习的复杂场景智能体训练方法及其硬件,以残差网络对原始对战数据状态空间降维,并将处理后的数据以复杂场景分类,放入对应部署好的分布式近端策略优化子网络进行多线程同步训练,在子网络迭代更新完成后使用模仿学习,将训练好的子网络数据返回至主网络,训练自适应复杂对战场景网络;基于方法获得计算机可读存储介质和计算机设备实现。本发明专利技术给轻量型模型在复杂场景中的训练提供新的借鉴思路,有效解决复杂场景下强化学习智能体态势信息空间大幅膨胀的问题,用更细粒度与可解释性更强的方法实现态势信息的区块化分布表示与聚合,使用分布式训练结构与强化学习模型的离线式训练特性相匹配,提升训练效率与收敛速度。

【技术实现步骤摘要】

本专利技术涉及电数字数据处理的,特别涉及一种智能对抗的基于分布式强化学习的复杂场景智能体训练方法及其硬件


技术介绍

1、近年来,人工智能技术在自然语言处理、复杂场景对抗等很多领域都取得了亮眼成就,并逐步从感知智能向决策智能迈进。

2、现代人工智能的出现,从基于深度学习技术的感知智能开始,其让机器具备像人一样感知能力,但显然,人们并不满足于人工智能只是感知信息,科技的发展方向一直向着训练机器像人一样进行学习、思考和推理的方向进步,不远的未来,人工智能技术或将能代替人类进行决策判断,实现决策智能。

3、在过去的几年里,许多决策优化方法被提出用于提高复杂场景中的智能体决策机制。这些方法大致可以分为基于数学求解的智能化决策规划、基于机器搜索的机动决策算法和基于数据驱动的多智能体深度强化学习。其中前两种方法由于需要严格的数学逻辑证明、丰富的专家经验指导和复杂的态势评估函数设计,致使其在复杂场景下不具备良好的泛化能力。然而,现有技术中,决策智能的应用仍旧存在许多问题。一方面,目前的单智能体强化学习算法仅适用决策场景中的简单任务,面对复杂场景就会出现训练时间缓慢,难收敛的问题;另一方面,基于多智能体的大模型网络发展迅速,但依然存在着可解释性差、可调试能力弱的问题,而且其高成本的算力要求和大内存的占用需求也使其无法轻便地移植到小型的对战测试场景中。

4、在决策智能的发展方向上,这些问题是亟待解决的。


技术实现思路

1、为解决上述技术问题,本专利技术提供一种基于分布式强化学习的复杂场景智能体训练方法及其硬件,解决在复杂场景中智能体态势信息空间部分可观与过度冗余的问题,同时也为轻量型模型训练提供自适应优化的范例。

2、本专利技术所采用的技术方案是,一种基于分布式强化学习的复杂场景智能体训练方法,所述方法以残差网络对原始对战数据状态空间降维,并将处理后的数据以复杂场景分类,放入对应部署好的分布式近端策略优化子网络进行多线程同步训练,在子网络迭代更新完成后使用模仿学习,将训练好的子网络数据返回至主网络,训练自适应复杂对战场景网络。

3、优选地,所述方法包括以下步骤:

4、s1构建多智能体对战场景模型,此处的多智能体指2个及以上智能体;

5、s2部署目标子网络模型;针对s1的多智能体对战场景模型定义的执行方案,分别设置对应的近端策略优化子网络模型,并部署于工作目录下;

6、s3设置残差网络;

7、s4分布式训练目标子网络模型;

8、s5在子网络模型引导下构建主网络模型,训练自适应复杂场景网络。

9、优选地,s3中,所述残差网络为残差分类网络,作为场景打击模式分类网络,由若干3×3的基本卷积块组成,此处为34个,设置网络输入为场景态势数据,实施过程中为128×128×3的结构,输出的分类y标签为s1的多智能体对战场景模型定义的执行方案之一;

10、模型训练目标为,

11、

12、其中,p(·)表示样本的真实标签,q(·)表示模型的预测概率,xi表示输入的样本,||w||2表示取模型参数的2范数,λ表示正则化系数,取值范围为[0.001,1],log(·)表示取对数,n为样本总数,i为样本的序号;

13、以训练好的残差分类网络的卷积层的输出作为输入所述目标子网络模型中的最终的态势信息特征向量s;

14、具体来说,将训练好的模型作为每次目标子网络模型训练时的前置判断依据,即残差分类网络的输出表示当前本轮场景采用对应的执行方案之一,之后输入执行方案对应的目标子网络模型进行训练;将训练好的残差分类网络卷积层的输出作为s2中输入层最终的态势信息特征向量s,即对原本复杂状况空间中的特征向量进行了卷积层的降维处理,降低网络参数的同时提高训练效率。

15、优选地,所述场景态势数据为m×n×3,其中m×n表示场景地图的大小,即将地图分割成长度为m个,宽度为n个的方格区间,在场景地图的每个方格区间内统计3维数据包括双方装备数量和该区域的总体威胁度threati,j,横向第i个、纵向第j个方格区间的区域总体威胁度为,

16、

17、其中,为角度威胁指数,d为距离威胁指数,v为速度威胁指数,α、β、γ均为非负权重系数且满足α+β+γ=1。

18、优选地,以准确率作为残差网络的评价指标训练所述残差网络;准确率表示对于给定的测试数据集,分类器正确分类的样本数与总样本数之比,满足

19、

20、其中,tp表示正类判定为正类,fp表示负类被判定为正类,fn表示正类被判定为负类,tn表示负类被判定为负类。

21、优选地,设置对应s1的多智能体对战场景模型定义的执行方案的数量的容器,用于尽量减少受到的打击策略随机性的影响并加快目标子网络模型的收敛速度,并在容器中置入s2中对应的目标子网络模型,态势信息特征向量s在通过s3的残差分类网络进行分类后输入对应的子网络模型进行训练;保存训练后收敛的目标子网络模型保存。

22、优选地,s5包括以下步骤:

23、s5.1训练主网络模型;

24、构建与s2中目标子网络模型结构相同的主网络模型,设置相同的训练参数,采用模仿学习的方式将对应s1的多智能体对战场景模型定义的执行方案的数量的目标子网络生成的状态动作对作为预训练数据输入主网络模型中进行训练,得到主网络模型;

25、为了提升训练的效果,将主网络模型独立设置,针对不同的执行方案训练并联的目标子网络模型,将训练得到的相应数据输出至主网络模型进行训练。

26、s5.2训练基线模型;

27、构建与s2中目标子网络模型结构相同的网络模型,设置相同的训练参数,直接输入复杂场景中进行训练,得到基线网络模型;

28、以基线网络模型作为基准,供训练过程中作为对照应用;

29、s5.3设置评价指标,用于评价主网络模型的性能;

30、优选地,s5.3中,每轮的最终奖励值和存活率作为模型性能的评价指标。

31、在复杂场景的智能体对抗深度强化学习中,模型常用每轮的最终奖励值和存活率作为模型性能的评价指标;

32、最终奖励值表示对于给定的测试场景,每轮作战结束后存活智能体的奖励分数之和,奖励值越高则模型性能越好;

33、存活率表示对于给定的测试场景,每轮作战结束后存活智能体数与智能体总数之比,满足

34、

35、其中,sur表示存活的智能体数,count表示智能体总数,存活率越高则模型性能越好。

36、一种计算机可读存储介质,所述介质上存储有基于分布式强化学习的复杂场景智能体训练程序,该程序被处理器执行时实现上述基于分布式强化学习的复杂场景智能体训练方法。

37、一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所本文档来自技高网...

【技术保护点】

1.一种基于分布式强化学习的复杂场景智能体训练方法,其特征在于:所述方法以残差网络对原始对战数据状态空间降维,并将处理后的数据以复杂场景分类,放入对应部署好的分布式近端策略优化子网络进行多线程同步训练,在子网络迭代更新完成后使用模仿学习,将训练好的子网络数据返回至主网络,训练自适应复杂对战场景网络。

2.根据权利要求1所述的一种基于分布式强化学习的复杂场景智能体训练方法,其特征在于:所述方法包括以下步骤:

3.根据权利要求2所述的一种基于分布式强化学习的复杂场景智能体训练方法,其特征在于:S3中,所述残差网络为残差分类网络,由若干3×3的基本卷积块组成,设置网络输入为场景态势数据,输出的分类y标签为S1的多智能体对战场景模型定义的执行方案之一;

4.根据权利要求3所述的一种基于分布式强化学习的复杂场景智能体训练方法,其特征在于:所述场景态势数据为m×n×3,其中m×n表示场景地图的大小,在场景地图的每个方格区间内统计3维数据包括双方装备数量和该区域的总体威胁度threati,j,横向第i个、纵向第j个方格区间的区域总体威胁度为,

5.根据权利要求3所述的一种基于分布式强化学习的复杂场景智能体训练方法,其特征在于:以准确率作为残差网络的评价指标训练所述残差网络。

6.根据权利要求2所述的一种基于分布式强化学习的复杂场景智能体训练方法,其特征在于:设置对应S1的多智能体对战场景模型定义的执行方案的数量的容器,并在容器中置入S2中对应的目标子网络模型,态势信息特征向量s在通过S3的残差分类网络进行分类后输入对应的子网络模型进行训练;保存训练后收敛的目标子网络模型保存。

7.根据权利要求1所述的一种基于分布式强化学习的复杂场景智能体训练方法,其特征在于:S5包括以下步骤:

8.根据权利要求7所述的一种基于分布式强化学习的复杂场景智能体训练方法,其特征在于:S5.3中,每轮的最终奖励值和存活率作为模型性能的评价指标。

9.一种计算机可读存储介质,其特征在于:所述介质上存储有基于分布式强化学习的复杂场景智能体训练程序,该程序被处理器执行时实现上述基于分布式强化学习的复杂场景智能体训练方法。

10.一种计算机设备,其特征在于:包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时,实现上述基于分布式强化学习的复杂场景智能体训练方法。

...

【技术特征摘要】

1.一种基于分布式强化学习的复杂场景智能体训练方法,其特征在于:所述方法以残差网络对原始对战数据状态空间降维,并将处理后的数据以复杂场景分类,放入对应部署好的分布式近端策略优化子网络进行多线程同步训练,在子网络迭代更新完成后使用模仿学习,将训练好的子网络数据返回至主网络,训练自适应复杂对战场景网络。

2.根据权利要求1所述的一种基于分布式强化学习的复杂场景智能体训练方法,其特征在于:所述方法包括以下步骤:

3.根据权利要求2所述的一种基于分布式强化学习的复杂场景智能体训练方法,其特征在于:s3中,所述残差网络为残差分类网络,由若干3×3的基本卷积块组成,设置网络输入为场景态势数据,输出的分类y标签为s1的多智能体对战场景模型定义的执行方案之一;

4.根据权利要求3所述的一种基于分布式强化学习的复杂场景智能体训练方法,其特征在于:所述场景态势数据为m×n×3,其中m×n表示场景地图的大小,在场景地图的每个方格区间内统计3维数据包括双方装备数量和该区域的总体威胁度threati,j,横向第i个、纵向第j个方格区间的区域总体威胁度为,

5.根据权利要求3所述的一种基于分布式强化学习的复杂场景...

【专利技术属性】
技术研发人员:陈宇冲冯宇潘明岩李永强
申请(专利权)人:浙江工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1