用于目标环境的信念图构建以及智能体训练的方法和装置制造方法及图纸

技术编号:38429634 阅读:13 留言:0更新日期:2023-08-07 11:26
一种目标环境的信念图构建方法,包括:对于智能体集合中的每个智能体,获取可移动单位集合的状态信息,包括智能体视角下的每个可移动单位的当前状态估计及不确定性;针对目标环境的每个栅格,根据状态信息确定表示智能体视角下的每个可移动单位对栅格的影响的第一影响度,得到第一多个第一影响度;获取智能体集合的特征信息,包括每个智能体的当前位置和探测参数;针对每个栅格,根据特征信息确定表示每个智能体对栅格的影响的第二影响度,得到第二多个第二影响度;根据每个栅格的第一多个第一影响度和第二多个第二影响度,确定指示栅格内存在可移动单位的可能性的信念值,得到目标环境的信念值集合;根据信念值集合构建目标环境的信念图。境的信念图。境的信念图。

【技术实现步骤摘要】
用于目标环境的信念图构建以及智能体训练的方法和装置


[0001]本公开涉及人工智能
,尤其涉及用于目标环境的信念图构建以及智能体训练的方法、装置、电子设备和计算机可读存储介质。

技术介绍

[0002]随着技术发展,现代作战正逐渐趋向于电子化、信息化。如何获得精确完整的作战环境信息变得尤其重要。对此,环境建模成为重点研究工作之一。对可移动单位分布情况进行高效表示是环境建模的重要环节。传统的环境建模方法通常以向量化的表征为主,从观测方的角度而言,向量化的表征方式丢失了环境的空间信息。
[0003]在此部分中描述的方法不一定是之前已经设想到或采用的方法。除非另有指明,否则不应假定此部分中描述的任何方法仅因其包括在此部分中就被认为是现有技术。类似地,除非另有指明,否则此部分中提及的问题不应认为在任何现有技术中已被公认。

技术实现思路

[0004]本公开提供了用于目标环境的信念图构建以及智能体训练的方法、装置、电子设备和计算机可读存储介质。
[0005]根据本公开的一方面,提供了一种目标环境的信念图构建方法,包括:对于目标环境下的智能体集合中的每个智能体,获取目标环境下的可移动单位集合的状态信息,状态信息包括智能体视角下的可移动单位集合中每个可移动单位的当前状态估计和相关联的不确定性;针对目标环境的每个栅格,根据可移动单位集合的状态信息确定表示智能体视角下的每个可移动单位对栅格的影响的第一影响度,以得到第一多个第一影响度;获取智能体集合的特征信息,特征信息包括智能体集合中每个智能体的当前位置和探测参数;针对目标环境的每个栅格,根据智能体集合的特征信息确定表示每个智能体对栅格的影响的第二影响度,以得到第二多个第二影响度;根据目标环境的每个栅格的第一多个第一影响度和第二多个第二影响度,确定指示栅格内存在可移动单位的可能性的信念值,以得到目标环境的信念值集合;以及根据信念值集合构建目标环境的信念图,信念图包括分别与目标环境的各个栅格相关联的色块,其中,色块所关联的栅格的信念值与色块的颜色之间具有对应性。
[0006]根据本公开的另一方面,提供了一种智能体训练方法,包括:在样本采集阶段,执行以下操作:针对当前时间步和下一时间步,根据本公开的方法构建目标环境的相应信念图;将相应信念图输入多层卷积神经网络,得到多层卷积神经网络输出的相应多个子采样特征向量;利用注意力机制,根据相应多个子采样特征向量确定相应融合特征向量作为目标环境的当前状态和下一状态;在当前时间步使目标强化学习模型的选定策略与目标环境进行交互,获得智能体集合在当前状态下要采取的动作,动作使智能体集合中的每个智能体从当前时间步的相应当前位置移动至下一时间步的相应位置;将当前状态、智能体集合在当前状态下要采取的动作、智能体集合在当前状态下采取动作所获得的奖励以及下一状
态作为四元组训练样本存入经验池,其中,一个回合所需的四元组训练样本数量记为第一样本数量;以及响应于经验池中新存入的四元组训练样本的数量达到第一样本数量的预设倍数,中断当前样本采集阶段的操作并进入模型训练阶段;或者响应于经验池中新存入的四元组训练样本的数量未达到第一样本数量的预设倍数,继续上述操作,在模型训练阶段,执行以下操作:利用从经验池中选择的一批次四元组训练样本更新强化学习模型的策略;将经更新的强化学习模型的策略作为强化学习模型在当前模型训练阶段训练得到的策略;以及将当前模型训练阶段训练得到的策略与先前模型训练阶段训练得到的一个或多个策略进行比较,确定目标强化学习模型在下一样本采集阶段的选定策略。
[0007]根据本公开的另一方面,提供了一种目标环境的信念图构建装置,包括:第一获取模块,配置为对于目标环境下的智能体集合中的每个智能体,获取目标环境下的可移动单位集合的状态信息,状态信息包括智能体视角下的可移动单位集合中每个可移动单位的当前状态估计和相关联的不确定性;第一确定模块,配置为针对目标环境的每个栅格,根据可移动单位集合的状态信息确定表示智能体视角下的每个可移动单位对栅格的影响的第一影响度,以得到第一多个第一影响度;第二获取模块,配置为获取智能体集合的特征信息,特征信息包括智能体集合中每个智能体的当前位置和探测参数;第二确定模块,配置为针对目标环境的每个栅格,根据智能体集合的特征信息确定表示每个智能体对栅格的影响的第二影响度,以得到第二多个第二影响度;第三确定模块,配置为根据目标环境的每个栅格的第一多个第一影响度和第二多个第二影响度,确定指示栅格内存在可移动单位的可能性的信念值,以得到目标环境的信念值集合;以及构建模块,配置为根据信念值集合构建目标环境的信念图,信念图包括分别与目标环境的各个栅格相关联的色块,其中,色块所关联的栅格的信念值与色块的颜色之间具有对应性。
[0008]根据本公开的另一方面,提供了一种智能体训练装置,包括:样本采集模块,包括:第一单元,用于针对当前时间步和下一时间步,根据权利要求1至4中任一项的方法构建目标环境的相应信念图;第二单元,用于将相应信念图输入多层卷积神经网络,得到多层卷积神经网络输出的相应多个子采样特征向量;第三单元,用于利用注意力机制,根据相应多个子采样特征向量确定相应融合特征向量作为目标环境的当前状态和下一状态;第四单元,用于在当前时间步使目标强化学习模型的选定策略与目标环境进行交互,获得智能体集合在当前状态下要采取的动作,动作使智能体集合中的每个智能体从当前时间步的相应当前位置移动至下一时间步的相应位置;第五单元,用于将当前状态、智能体集合在当前状态下要采取的动作、智能体集合在当前状态下采取动作所获得的奖励以及下一状态作为四元组训练样本存入经验池,其中,一个回合所需的四元组训练样本数量记为第一样本数量;以及第六单元,用于响应于经验池中新存入的四元组训练样本的数量达到第一样本数量的预设倍数,中断当前样本采集阶段的操作并进入模型训练阶段;以及第七单元,用于响应于经验池中新存入的四元组训练样本的数量未达到第一样本数量的预设倍数,继续上述操作,模型训练模块,包括:第八单元,用于利用从经验池中选择的一批次四元组训练样本更新强化学习模型的策略;第九单元,用于将经更新的强化学习模型的策略作为强化学习模型在当前模型训练阶段训练得到的策略;以及第十单元,用于将当前模型训练阶段训练得到的策略与先前模型训练阶段训练得到的一个或多个策略进行比较,确定目标强化学习模型在下一样本采集阶段的选定策略。
[0009]根据本公开的又一方面,提供了一种电子设备,包括:至少一个处理器;以及与该至少一个处理器通信连接的存储器;其中该存储器存储有计算机程序,该计算机程序在被该至少一个处理器执行时实现上述方法。
[0010]根据本公开的又一方面,提供了一种存储有计算机程序的非瞬时计算机可读存储介质,其中,该计算机程序在被处理器执行时实现上述方法。
[0011]根据本公开的再一方面,提供了一种计算机程序产品,包括计算机程序,其中,该计算机程序在被处理器执行时实现上述方法。
[0012]根据本公开的一个或多个实施例,通过获取目标环境下可移动本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种目标环境的信念图构建方法,包括:对于所述目标环境下的智能体集合中的每个智能体,获取所述目标环境下的可移动单位集合的状态信息,所述状态信息包括所述智能体视角下的所述可移动单位集合中每个可移动单位的当前状态估计和相关联的不确定性;针对所述目标环境的每个栅格,根据所述可移动单位集合的状态信息确定表示所述智能体视角下的每个可移动单位对所述栅格的影响的第一影响度,以得到第一多个第一影响度;获取所述智能体集合的特征信息,所述特征信息包括所述智能体集合中每个智能体的当前位置和探测参数;针对所述目标环境的每个栅格,根据所述智能体集合的特征信息确定表示每个智能体对所述栅格的影响的第二影响度,以得到第二多个第二影响度;根据所述目标环境的每个栅格的所述第一多个第一影响度和所述第二多个第二影响度,确定指示所述栅格内存在所述可移动单位的可能性的信念值,以得到所述目标环境的信念值集合;以及根据所述信念值集合构建所述目标环境的信念图,所述信念图包括分别与所述目标环境的各个栅格相关联的色块,其中,色块所关联的栅格的信念值与所述色块的颜色之间具有对应性。2.根据权利要求1所述的方法,其中,所述确定表示所述智能体视角下的每个可移动单位对所述栅格的影响的第一影响度以得到第一多个第一影响度包括:对于每个智能体,根据每个可移动单位的所述当前状态估计和相关联的不确定性确定所述可移动单位的第一概率密度,以得到多个第一概率密度;将所述多个第一概率密度进行坐标转换,得到多个第二概率密度;根据所述状态信息确定每个可移动单位相对于所述栅格的空间相似性度量,得到多个空间相似性度量;根据每个可移动单位的所述第二概率密度和所述空间相似性度量确定表示所述可移动单位对所述栅格的影响的所述第一影响度,获得每个智能体视角下的所述栅格的多个所述第一影响度,以得到所述第一多个第一影响度。3.根据权利要求1所述的方法,其中,所述确定表示每个智能体对所述栅格的影响的第二影响度以得到第二多个第二影响度包括:针对所述智能体集合中的每个智能体,根据所述智能体的所述当前位置和探测参数确定所述栅格是否位于所述智能体的探测范围内;响应于确定所述栅格位于所述智能体的探测范围内,将所述第二影响度设置为确定值;响应于确定所述栅格位于所述智能体的探测范围外,获取所述智能体相对于所述栅格的空间相对位置信息,并将所述空间相对位置信息和所述智能体的探测参数一起输入目标激活函数,得到所述目标激活函数输出的函数值作为所述第二影响度,其中,所述目标激活函数输出的最大函数值与所述确定值相等。4.根据权利要求1至3中任一项所述的方法,其中,所述得到所述目标环境的信念值集
合包括:对于每个智能体,对所述智能体视角下的所述栅格的多个第一影响度与所述智能体对所述栅格的影响的第二影响度进行整合,得到所述智能体视角下的所述栅格的多个整合影响度;对每个智能体视角下的所述栅格的多个整合影响度进行平均,得到所述栅格的平均影响度;根据每个栅格的平均影响度确定每个栅格的信念值,得到所述目标环境的所述信念值集合。5.一种智能体训练方法,包括:在样本采集阶段,执行以下操作:针对当前时间步和下一时间步,根据权利要求1至4中任一项所述的方法构建所述目标环境的相应信念图;将所述相应信念图输入多层卷积神经网络,得到所述多层卷积神经网络输出的相应多个子采样特征向量;利用注意力机制,根据所述相应多个子采样特征向量确定相应融合特征向量作为所述目标环境的当前状态和下一状态;在当前时间步使目标强化学习模型的选定策略与所述目标环境进行交互,获得所述智能体集合在所述当前状态下要采取的动作,所述动作使所述智能体集合中的每个智能体从当前时间步的相应当前位置移动至下一时间步的相应位置;将所述当前状态、所述智能体集合在所述当前状态下要采取的所述动作、所述智能体集合在所述当前状态下采取所述动作所获得的奖励以及所述下一状态作为四元组训练样本存入经验池,其中,一个回合所需的四元组训练样本数量记为第一样本数量;以及响应于所述经验池中新存入的四元组训练样本的数量达到所述第一样本数量的预设倍数,中断当前样本采集阶段的操作并进入模型训练阶段;或者响应于所述经验池中新存入的四元组训...

【专利技术属性】
技术研发人员:肖刚叶丰林金王彬彬
申请(专利权)人:军事科学院系统工程研究院系统总体研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1