【技术实现步骤摘要】
基于多智体强化学习的心智理论模型实现方法及装置
[0001]本申请涉及心智模型和多智体控制领域,尤其涉及一种基于多智体强化学习的心智理论模型实现方法及装置。
技术介绍
[0002]目前,在强化学习与心智理论结合的方法中大多使用的都是单智体算法与心智理论模型进行结合,并且任务场景中的智能体数目较少、不同的智能体之间需要单独进行心智理论建模,而如果将这种方法直接应用到多智体场景中,将会给予网络训练极大的压力,从而导致多智能体的协同效果不佳。
技术实现思路
[0003]本申请提供一种基于多智体强化学习的心智理论模型实现方法及装置,旨在提升多智能体的协同效果。
[0004]第一方面,本申请提供一种基于多智体强化学习的心智理论模型实现方法,包括:
[0005]基于心智理论模型建立原始联合心智模型网络,通过所述原始联合心智模型网络预测多个己方智能体的友方智能体的意图特征信息;
[0006]建立多智体强化学习的任务场景并结合所述意图特征信息,分级建模所述场景任务的主目标及其子目标;
[000 ...
【技术保护点】
【技术特征摘要】
1.一种基于多智体强化学习的心智理论模型实现方法,其特征在于,包括:基于心智理论模型建立原始联合心智模型网络,通过所述原始联合心智模型网络预测多个己方智能体的友方智能体的意图特征信息;建立多智体强化学习的任务场景并结合所述意图特征信息,分级建模所述场景任务的主目标及其子目标;对所述主目标进行训练,得到收敛后的主目标实现算法,并基于平台底层规则得到所述子目标的规则化子目标实现算法;通过所述收敛后的主目标实现算法和所述规则化子目标实现算法收集待使用数据对所述原始联合心智模型网络进行训练,得到目标联合心智模型网络;通过所述目标联合心智模型网络预测当前己方智能体的意图信息,并在多智体算法的训练过程中将所述意图信息添加至所述多智体算法的输入信息中,实现己方智能体的协同。2.根据权利要求1所述的基于多智体强化学习的心智理论模型实现方法,其特征在于,所述通过所述目标联合心智模型网络预测当前己方智能体的意图信息,并在多智体算法的训练过程中将所述意图信息添加至所述多智体算法的输入信息中,实现己方智能体的协同,包括:通过所述目标联合心智模型网络预测当前己方智能体的意图信息,并在多智体算法的训练过程中将所述意图信息添加至所述多智体算法的输入信息中,得到基于心智理论的多智体强化学习算法;通过所述基于心智理论的多智体强化学习算法控制己方智能体,通过强化学习算法控制敌方智能体,并将场景任务的参数调整至预设参数以及设定己方智能体和敌方智能体的奖励,在预设回合数以及预设回合时间下进行对战训练,记录训练期间每回合己方智能体和敌方智能体的第一整体雷达覆盖率指标变化;将所述第一整体雷达覆盖率指标变化与单独通过多智体强化学习算法训练得到的第二整体雷达覆盖率指标变化进行对比验证,实现己方智能体的协同。3.根据权利要求1所述的基于多智体强化学习的心智理论模型实现方法,其特征在于,所述基于心智理论模型建立原始联合心智模型网络,包括:确定所述多个己方智能体的全局观测信息,其中,所述全局观测信息包括己方智能体信息和己方可观测到的敌方智能体信息;通过所述多个己方智能体的己方智能体信息和己方可观测到的敌方智能体信息,对所述心智理论模型进行训练,得到所述原始联合心智模型网络。4.根据权利要求1所述的基于多智体强化学习的心智理论模型实现方法,其特征在于,所述通过所述原始联合心智模型网络预测多个己方智能体的友方智能体的意图特征信息,包括:通过所述原始联合心智模型网络对各个所述友方智能体的意图概率分布进行预测,得到各个所述友方智能体的表层意图信息;通过所述原始联合心智模型网络对各个所述友方智能体的自身概率分布进行预测,得到各个所述友方智能体的深处意图信息;将各个所述友方智能体的表层意图信息和深处意图信息,确定为各个所述友方智能体
的意图特征信息。5.根据权利要求1所述的基于多智体强化学习的心智理论模型实现方法,其特征在于,所述建立多智体强化学习的任务场景并结合所述意图特征信息,分级建模所述场景任务的主目标及其子...
【专利技术属性】
技术研发人员:胡铮,谭奇明,张春红,庄本辉,
申请(专利权)人:北京邮电大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。