【技术实现步骤摘要】
用于目标环境的信念图构建以及智能体训练的方法和装置
[0001]本公开涉及人工智能
,尤其涉及用于目标环境的信念图构建以及智能体训练的方法、装置、电子设备和计算机可读存储介质。
技术介绍
[0002]随着技术发展,现代作战正逐渐趋向于电子化、信息化。如何获得精确完整的作战环境信息变得尤其重要。对此,环境建模成为重点研究工作之一。对可移动单位分布情况进行高效表示是环境建模的重要环节。传统的环境建模方法通常以向量化的表征为主,从观测方的角度而言,向量化的表征方式丢失了环境的空间信息。
[0003]在此部分中描述的方法不一定是之前已经设想到或采用的方法。除非另有指明,否则不应假定此部分中描述的任何方法仅因其包括在此部分中就被认为是现有技术。类似地,除非另有指明,否则此部分中提及的问题不应认为在任何现有技术中已被公认。
技术实现思路
[0004]本公开提供了用于目标环境的信念图构建以及智能体训练的方法、装置、电子设备和计算机可读存储介质。
[0005]根据本公开的一方面,提供了一种目标环境的信念图构建方法,包括:对于目标环境下的智能体集合中的每个智能体,获取目标环境下的可移动单位集合的状态信息,状态信息包括智能体视角下的可移动单位集合中每个可移动单位的当前状态估计和相关联的不确定性;针对目标环境的每个栅格,根据可移动单位集合的状态信息确定表示智能体视角下的每个可移动单位对栅格的影响的第一影响度,以得到第一多个第一影响度;获取智能体集合的特征信息,特征信息包括智能体集合中每个智能体的当前位 ...
【技术保护点】
【技术特征摘要】
1.一种目标环境的信念图构建方法,包括:对于所述目标环境下的智能体集合中的每个智能体,获取所述目标环境下的可移动单位集合的状态信息,所述状态信息包括所述智能体视角下的所述可移动单位集合中每个可移动单位的当前状态估计和相关联的不确定性;针对所述目标环境的每个栅格,根据所述可移动单位集合的状态信息确定表示所述智能体视角下的每个可移动单位对所述栅格的影响的第一影响度,以得到第一多个第一影响度;获取所述智能体集合的特征信息,所述特征信息包括所述智能体集合中每个智能体的当前位置和探测参数;针对所述目标环境的每个栅格,根据所述智能体集合的特征信息确定表示每个智能体对所述栅格的影响的第二影响度,以得到第二多个第二影响度;根据所述目标环境的每个栅格的所述第一多个第一影响度和所述第二多个第二影响度,确定指示所述栅格内存在所述可移动单位的可能性的信念值,以得到所述目标环境的信念值集合;以及根据所述信念值集合构建所述目标环境的信念图,所述信念图包括分别与所述目标环境的各个栅格相关联的色块,其中,色块所关联的栅格的信念值与所述色块的颜色之间具有对应性。2.根据权利要求1所述的方法,其中,所述确定表示所述智能体视角下的每个可移动单位对所述栅格的影响的第一影响度以得到第一多个第一影响度包括:对于每个智能体,根据每个可移动单位的所述当前状态估计和相关联的不确定性确定所述可移动单位的第一概率密度,以得到多个第一概率密度;将所述多个第一概率密度进行坐标转换,得到多个第二概率密度;根据所述状态信息确定每个可移动单位相对于所述栅格的空间相似性度量,得到多个空间相似性度量;根据每个可移动单位的所述第二概率密度和所述空间相似性度量确定表示所述可移动单位对所述栅格的影响的所述第一影响度,获得每个智能体视角下的所述栅格的多个所述第一影响度,以得到所述第一多个第一影响度。3.根据权利要求1所述的方法,其中,所述确定表示每个智能体对所述栅格的影响的第二影响度以得到第二多个第二影响度包括:针对所述智能体集合中的每个智能体,根据所述智能体的所述当前位置和探测参数确定所述栅格是否位于所述智能体的探测范围内;响应于确定所述栅格位于所述智能体的探测范围内,将所述第二影响度设置为确定值;响应于确定所述栅格位于所述智能体的探测范围外,获取所述智能体相对于所述栅格的空间相对位置信息,并将所述空间相对位置信息和所述智能体的探测参数一起输入目标激活函数,得到所述目标激活函数输出的函数值作为所述第二影响度,其中,所述目标激活函数输出的最大函数值与所述确定值相等。4.根据权利要求1至3中任一项所述的方法,其中,所述得到所述目标环境的信念值集
合包括:对于每个智能体,对所述智能体视角下的所述栅格的多个第一影响度与所述智能体对所述栅格的影响的第二影响度进行整合,得到所述智能体视角下的所述栅格的多个整合影响度;对每个智能体视角下的所述栅格的多个整合影响度进行平均,得到所述栅格的平均影响度;根据每个栅格的平均影响度确定每个栅格的信念值,得到所述目标环境的所述信念值集合。5.一种智能体训练方法,包括:在样本采集阶段,执行以下操作:针对当前时间步和下一时间步,根据权利要求1至4中任一项所述的方法构建所述目标环境的相应信念图;将所述相应信念图输入多层卷积神经网络,得到所述多层卷积神经网络输出的相应多个子采样特征向量;利用注意力机制,根据所述相应多个子采样特征向量确定相应融合特征向量作为所述目标环境的当前状态和下一状态;在当前时间步使目标强化学习模型的选定策略与所述目标环境进行交互,获得所述智能体集合在所述当前状态下要采取的动作,所述动作使所述智能体集合中的每个智能体从当前时间步的相应当前位置移动至下一时间步的相应位置;将所述当前状态、所述智能体集合在所述当前状态下要采取的所述动作、所述智能体集合在所述当前状态下采取所述动作所获得的奖励以及所述下一状态作为四元组训练样本存入经验池,其中,一个回合所需的四元组训练样本数量记为第一样本数量;以及响应于所述经验池中新存入的四元组训练样本的数量达到所述第一样本数量的预设倍数,中断当前样本采集阶段的操作并进入模型训练阶段;或者响应于所述经验池中新存入的四元组训...
【专利技术属性】
技术研发人员:肖刚,叶丰,林金,王彬彬,
申请(专利权)人:军事科学院系统工程研究院系统总体研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。