【技术实现步骤摘要】
一种基于累积迹强化学习的多机器人协同搜索方法
[0001]本专利技术涉及一种基于累积迹强化学习的协同搜索方法,具体涉及一种将基于累积迹的奖励与探索方法引入强化学习中的多机器人协同搜索方法,属于军事信息系统智能决策、智能任务规划和智能指挥与控制
技术介绍
[0002]随着军事科技的迅猛发展,无人化作战逐渐成为未来战争的主要作战样式之一。对于陆地无人化作战而言,以机器人士兵取代真人作战是未来战斗系统发展的趋势。随着军事系统中越来越多的无人驾驶机、无人驾驶车等设备的使用,传统的集中式解决方式已经无法满足现代战争的要求。越来越多的军事系统要求采用分布式的,具有定位和通信功能的多机器人系统。多个机器人之间的协作,往往可以比单个机器人更加高效和快速地完成各种复杂的任务,主要包括定位、任务分配、避障、路径规划任务等。其中多机器人搜寻问题是目前主要研究问题之一。
[0003]多机器人搜寻问题又可以分为单目标搜索和多目标搜索,前者是后者的特殊情况,对于单目标搜寻方法而言,有明确规划机器人行为的意图合作式方法。例如梯度下降法和博弈论法等。有通过智能行为涌现来完成规定任务的涌现合作式方法,例如扩展微粒群算法和萤火虫算法等。其中,涌现合作式方法的效率较高。单目标协同搜索仅在个体层面发生,本质是细粒度协同,目前已进行了较为充分的研究。而多目标搜索涉及任务分解、分配、规划、决策及执行过程中对系统运行机制、各机器人的功能与角色,以及机器人之间的相互关系都有不同的要求,是面向动态环境、具有自主性和自适应性的复杂环境。
[0
【技术保护点】
【技术特征摘要】
1.基于累积迹强化学习的多机器人协同搜索方法,其特征在于,包括以下步骤:步骤1:根据任务确定多目标各时刻对应的状态和动作;步骤2:初始化神经网络和目标神经网络,将神经网络与目标神经网络的神经元参数设为相同;设定奖励因子、折扣系数以及各动作对应的奖惩量;步骤3:根据当前时刻的状态s
t
选择动作a
t
;执行动作a
t
,确定对应的奖惩量r
t
以及下一时刻的状态s
t+1
,获得包括当前状态s
t
、选择的动作a
t
、奖惩量r
t
以及下一时刻状态的状态s
t+1
的状态动作对数据(s
t
,a
t
,r
t
,s
t+1
),并将状态动作对(s
t
,a
t
)的访问次数加1;重复执行步骤3直至获得特定数量的状态动作对数据;步骤4:从获得的特定数量的状态动作对数据中选择设定个数N的状态动作对数据;针对选定的每个动作状态对数据,基于预设的奖励因子以及各状态动作对的访问次数计算该状态动作对的额外奖励;基于获得的额外奖励、所述折扣系数以及状态动作对数据中的奖惩量计算目标神经网络的输出量;计算目标神经网络的输出量与神经网络的输出量之间的误差,并根据随机梯度下降更新神经网络的神经元参数;设定步数后将神经网络与目标神经网络的神经元参数设为相同;步骤5:返回步骤3直至神经网络收敛,结束训练得到神经网络策略模型;步骤6:根据神经网络策略模型得到多机器人协同搜索策略,生成多机器人目标协同搜索方法。2.根据权利要求1所述的基于累积迹强化学习的多机器人协同搜索方法,其特征在于,根据当前时刻的状态选择动作的具体方法如下:产生随机数,将产生的随机数与预设阈值比较;若随机数小于预设阈值,则计算动作集中除去当前时刻的状态下使神经网络值最大时选择的动作以外的其它动作的选择概率,确定选择概率最大的动作并选择该动作;若所述随机数大于等于预设阈值,则选择当前时刻的状态下使神经网络值最大时选择的动作,表达式如下:其中表示当前时刻的状态s
t
下使神经网络值最大时选择的动作a,θ为目标神经网络的神经元参数,A为动作集。3.根据权利要求2所述的基于累积迹强化学习的多机器人协同搜索方法,其特征在于,动作a
j
的选择概率的计算方法如下:其中prob(a
j
)表示选择动作a
j
的选择概率;T表示温度大小,count(s,a
j
)表示状态动作对...
【专利技术属性】
技术研发人员:徐志雄,陈希亮,洪志理,
申请(专利权)人:中国人民解放军陆军工程大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。