一种面向多目标模拟对抗的决策智能体泛化性增强方法技术

技术编号：41103338 阅读：6 留言：0更新日期：2024-04-25 13:58

本发明专利技术提供了一种面向多目标模拟对抗的决策智能体泛化性增强方法，包括：根据模拟对抗场景动态变化需要，确定需要处置的目标列表，获取第一偏好和奖励映射函数；将第一偏好输入多目标强化学习智能体和单目标强化学习智能体，得到第一轨迹和第一动作；生成第二轨迹，对第一参数进行更新；基于判别器判断第一轨迹和第二轨迹是否基于同一偏好产生，得到判断结果；基于判断结果确定奖励值，更新判别器的第三参数；对第二参数进行更新；将第二偏好赋值给第一偏好；重复上述步骤，直至多目标强化学习智能体在模拟战场环境中收敛。本发明专利技术能够实现对于动态对抗模拟战场下指挥决策智能体系学习的泛化性的增强，能够适应动态变化的任务要求进行推理。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及人工智能领域，尤其涉及一种面向多目标模拟对抗的决策智能体泛化性增强方法。

技术介绍

1、多目标强化学习是指在智能体与环境交互的过程中，同时优化多个目标或任务。传统的强化学习方法通常只针对单一目标进行优化，而多目标强化学习则旨在解决现实世界中具有多个相互依赖或矛盾目标的复杂问题。现有技术中缺乏多目标强化学习的泛化性增强方法：现有的强化学习泛化性增强方法主要集中在单目标强化学习任务上，对于多目标强化学习任务的泛化性增强方法相对较少。以联合作战模拟仿真对抗为例，在仿真过程中，需要根据模拟对抗环境动态确定任务目标，并据此组织兵力行动。在多目标任务中，智能体需要动态加载打击目标列表，即第一偏好，在多个目标之间进行权衡、决策和推理。但现有的方法往往无法有效地处理这种情况，无法根据外部环境变化调整和加载偏好，进而无法实现多目标强化学习泛化性增强。

技术实现思路

1、专利技术目的：本专利技术所要解决的技术问题是针对现有技术的不足，提供一种面向多目标模拟对抗的决策智能体泛化性增强方法、装置及设备(决策智能体类似于一个虚拟指挥官，可以根据模拟战场动态变化的情况实时加载任务目标列表，并组织兵力对抗)。所述方法包括以下步骤：

2、步骤1，根据模拟对抗动态变化场景需要(模拟对抗，仿真，指的是计算机虚拟战棋软件系统)，(人为)确定需要处置的目标列表，获取第一偏好ω和奖励映射函数f，第一偏好ω是一个和为1，形式为(1,m)的非负二维向量，m为多目标的目标数，ω表示多目标任务中各个目标的偏好权重；

3、步骤2，将第一偏好ω分别输入多目标强化学习智能体和单目标强化学习智能体，利用多目标强化学习智能体在模拟战场环境交互，获得由时序向量数据组成的每一时刻的状态数据，记为第一轨迹t1，并记单目标强化学习智能体的动作数据为第一动作a1，a1是一个形式为(1,m)的二维向量，a1用于改变第一偏好ω；

4、步骤3，基于第一偏好ω和第一动作a1得到第二偏好ω′，ω′是一个和为1，形式为(1，m)的非负二维向量；

5、步骤4，基于多目标强化学习智能体在模拟战场环境中的交互过程，生成时序向量数据组成的每一时刻的状态数据，记为第二轨迹t2，对多目标强化学习智能体的第一参数θ1进行更新；

6、步骤5，基于判别器判断第一轨迹t1和第二轨迹t2是否基于同一偏好产生，得到判断结果；

7、步骤6，基于判断结果确定奖励值，更新判别器的第三参数θ3；

8、步骤7，基于第一偏好ω、第一动作a1、第二偏好ω′和奖励值对单目标强化学习智能体的第二参数θ2进行更新；

9、步骤8，将第二偏好ω′赋值给第一偏好ω；

10、步骤9，重复执行步骤2～步骤8，直至多目标强化学习智能体在模拟战场环境中的表现收敛。

11、步骤2包括：

12、将第一偏好ω输入多目标强化学习智能体，使用多目标强化学习智能体与模拟战场环境交互，生成时序向量形式的每一时刻状态数据，记为第一轨迹t1，对多目标强化学习智能体的第一参数θ1进行更新；

13、将所述第一偏好ω输入单目标强化学习智能体，得到第一动作a1。

14、步骤2中，所述多目标强化学习智能体agent-m的具体描述为：

15、组成：由envelope moq-leaming算法组成的多目标强化学习智能体；

16、环境：与agent-m交互的环境是模拟战场的多目标环境；

17、输入：多目标环境当前状态s，来自于agent-d输出的多目标间的第一偏好ω；

18、输出：最优动作a，并获得向量奖励r，转移至下一状态s’；

19、更新方式：根据多目标环境给予的奖励信号r通过公式(1)、(2)、(3)计算损失函数更新，其中la(θ)为envelope moq-leaming损失函数，lb(θ)为模拟战场环境的训练环境和验证环境的泛化性差异gengap：

20、

21、lb(θ)＝ut(π，m|ctrain)-ut(π，m|cval) (2)

22、l(θ)＝la(θ)+λ1lb(θ) (3)

23、其中t是矩阵转置，λ0为[0，1]之间的一个参数，表示损失函数前后两部分的权重，随着训练进行，λ0从0缓慢增加到1；s是状态，a是动作，w是偏好；es，a，ω是对多目标强化学习智能体的状态动作和偏好求期望；y是动作价值函数q的优化目标值，y＝r+γ*max(q(s′，a′，ω，θ))，θ是q的网络参数，cval是验证时多目标强化学习智能体遇到的上下文环境；ctrain是训练时多目标强化学习智能体遇到的上下文环境；λ1是平衡la(θ)和lb(θ)的参数；ut是utility的缩写，表示效用；m是上下文的马尔可夫决策过程，ctrain是训练时多目标强化学习智能体遇到的上下文环境；m|ctrain表示当环境上下文集为ctrain时的马尔可夫决策过程；m|cval表示当环境上下文集为cval时的马尔可夫决策过程；l(θ)是多目标强化学习泛化性增强算法的损失函数；l代表损失loss；

24、所述单目标强化学习智能体agent-d的具体描述为：

25、组成：单目标强化学习算法ppo(proximal policy optimization，近端策略优化)；

26、输入：状态为agent-m的偏好ω；

27、输出：对ω的连续改变a，从判别器discriminator获得奖励reward，转移到下一状态ω′；

28、更新方式：通过判别器discriminator给出的奖励reward，根据单目标强化学习算法算法更新；

29、所述判别器discriminator的具体描述为：

30、组成：由深度神经网络组成的二分类判别器；

31、输入：两条由agent-m与环境交互产生的轨迹t1、t2；

32、输出：两条轨迹是否来源于同一偏好的概率；奖励映射函数reward＝f(x)，如果判别器discriminator判断两条轨迹t1、t2来源于同一偏好，并且t1、t2实际却来自于不同偏好，则reward＝-1；如果判别器判断t1、t2来源于不同偏好，且实际t1、t2来源于不同偏好，则reward＝1；其他情况reward＝0；

33、更新方式：通过轨迹t1、t2是否来源于同一偏好的标签计算交叉熵损失，使用梯度下降算法更新。

34、步骤4中，所述基于多目标强化学习智能体与模拟战场环境交互，生成的由时序向量数据组成的每一时刻状态数据，记为第二轨迹t2，包括：

35、基于多目标强化学习智能体和第一偏好ω与多目标模拟战场环境交互产生第二轨迹t2，或基于多目标强化学习智能体和第二偏好ω′与多目标模拟战场环境交互产生第二轨迹t2；

36、所述多目标模拟战场环境为多目标强化学习智能体交互的训练环本文档来自技高网...

【技术保护点】

1.一种面向多目标模拟对抗的决策智能体泛化性增强方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的方法，其特征在于，步骤2包括：

3.根据权利要求2所述的方法，其特征在于，步骤2中，所述多目标强化学习智能体Agent-M的具体描述为：

4.根据权利要求3所述的方法，其特征在于，步骤4中，所述基于多目标强化学习智能体与模拟战场环境交互，生成的由时序向量数据组成的每一时刻状态数据，记为第二轨迹t2，包括：

5.根据权利要求4所述的方法，其特征在于，步骤4中，所述对多目标强化学习智能体的第一参数θ1进行更新，包括：

6.根据权利要求5所述的方法，其特征在于，步骤6中，所述基于判断结果确定奖励值，包括：

7.根据权利要求6所述的方法，其特征在于，步骤6中，所述更新判别器的第三参数θ3，包括：

8.根据权利要求7所述的方法，其特征在于，步骤9中，所述直至所述多目标强化学习智能体在模拟战场环境中收敛，是指直至多目标强化学习智能体的泛化误差间隙符合预设泛化标准。

9.一种模拟战场智能决策的多

10.一种电子设备，其特征在于，所述设备包括存储器和处理器，所述存储器用于存储程序或代码，所述处理器用于运行所述存储器中存储的程序或代码，以实现如权利要求1-8任一项所述的方法。

...

【技术特征摘要】

1.一种面向多目标模拟对抗的决策智能体泛化性增强方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的方法，其特征在于，步骤2包括：

3.根据权利要求2所述的方法，其特征在于，步骤2中，所述多目标强化学习智能体agent-m的具体描述为：

5.根据权利要求4所述的方法，其特征在于，步骤4中，所述对多目标强化学习智能体的第一参数θ1进行更新，包括：

6.根据权利要求5所述的方法，其...

【专利技术属性】
技术研发人员：郑少秋，陆凌云，戴海飞，左毅，施生生，王静，田龙，郑仕鑫，
申请(专利权)人：中国电子科技集团公司第二十八研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人