一种搜救机器人的搜救方法、装置及存储介质制造方法及图纸

技术编号:34258537 阅读:19 留言:0更新日期:2022-07-24 13:17
本发明专利技术提供了一种搜救机器人的搜救方法、装置及存储介质,其方法包括:当获取搜救指令时,初始化搜救机器人的自身状态;基于训练后的搜救策略模型根据自身状态生成自动搜救策略;根据自动搜救策略执行搜救动作;其中,所述自动搜救策略模型的训练包括:构建搜救的仿真环境,并根据仿真环境制定训练任务;构建基于VDN算法的自动搜救策略模型;对自动搜救策略模型进行初始化并基于训练任务进行训练;本发明专利技术能够提升搜救机器人强化学习的学习效率,满足搜救机器人在现实任务中的实时性要求。足搜救机器人在现实任务中的实时性要求。足搜救机器人在现实任务中的实时性要求。

A search and rescue method, device and storage medium of search and rescue robot

【技术实现步骤摘要】
一种搜救机器人的搜救方法、装置及存储介质


[0001]本专利技术涉及一种搜救机器人的搜救方法、装置及存储介质,属于无人驾驶


技术介绍

[0002]搜救机器人是在面临城市自然灾害、化工爆炸、火灾等突发情况时,能够代替搜救人员深入救援一线从事人员营救、信息探测等危险任务的智能机器人。当发生地震、火灾、化工爆炸、核爆炸等灾害时,救援现场的建筑结构极其不稳定,随时可能发生二次灾害,因此对救援人员的生命健康带来极大风险。基于深度强化学习的智能搜救机器人可以根据专家指令深入狭缝中搜索生命迹象、探测现场信息,并根据对现场环境的实时观测调整搜救策略和避免机器人自身受损,是当前智能机器人应用的重要分支和发展方向,对于救援工作的智能化发展具有重要意义。

技术实现思路

[0003]本专利技术的目的在于克服现有技术中的不足,提供一种搜救机器人的搜救方法、装置及存储介质,能够提升搜救机器人强化学习的学习效率,满足搜救机器人在现实任务中的实时性要求。
[0004]为达到上述目的,本专利技术是采用下述技术方案实现的:
[0005]第一方面,本专利技术提供了一种搜救机器人的搜救方法,包括:
[0006]当获取搜救指令时,初始化搜救机器人的自身状态;
[0007]基于训练后的搜救策略模型根据自身状态生成自动搜救策略;
[0008]根据自动搜救策略执行搜救动作;
[0009]其中,所述自动搜救策略模型的训练包括:
[0010]构建搜救的仿真环境,并根据仿真环境制定训练任务
[0011]构建基于VDN算法的自动搜救策略模型;
[0012]对自动搜救策略模型进行初始化并基于训练任务进行训练。
[0013]可选的,所述训练任务为在仿真环境中设置搜救范围,在搜救范围内配置p个搜救机器人、m个幸存者、n个障碍物,且在搜救范围内每隔预设时间段在任意位置生成一个新的障碍物;搜救机器人在搜救范围内寻找幸存者,同时避免触碰到障碍物以及其他搜救机器人。
[0014]可选的,所述对自动搜救策略模型进行初始化并基于训练任务进行训练包括:
[0015]初始化自动搜救策略模型,包括对自动搜救策略模型的现实动作网络、目标动作网络、现实评价网络以及目标评价网络进行初始化;
[0016]通过搜救的仿真环境中基于自动搜救策略模型执行训练任务获取模型训练样本集合;
[0017]通过模型训练样本集合训练更新自动搜救策略模型,并将更新后的自动搜救策略
模型代替初始化的自动搜救策略模型带入上述步骤进行迭代;
[0018]若到达预设的最大迭代次数,训练完成。
[0019]可选的,所述获取模型训练样本集合包括:
[0020]获取搜救机器人的当前状态S和环境观察值O;
[0021]根据初始化的自动搜救策略模型基于当前状态S和环境观察值O从动作集合A中选取动作策略a;
[0022]根据动作策略a驱动搜救机器人在仿真环境中自动搜救并获取搜救机器人的下一状态S
*
和环境观察值O
*

[0023]根据搜救机器人的下一状态S
*
和环境观察值O
*
获取动作策略a的得分R以及终止状态E;
[0024]将搜救机器人的当前状态的特征向量φ(S)、下一状态的特征向量φ(S
*
)、动作策略a、得分R以及终止状态E保存为缓存回放数组,记为{φ(S),φ(S
*
),a,R,E};
[0025]将缓存回放数组存入预构建的缓存回放经验池D中,并重复上述步骤直至缓存回放经验池D中缓存回放数组达到预设数量;
[0026]从缓存回放经验池D中随机选取T个缓存回放数组生成模型训练样本集合D
T

[0027]可选的,所述状态包括搜救机器人坐标,所述环境观察值包括搜救机器人坐标周围预设范围内的障碍物、幸存者以及其他搜救机器人。
[0028]可选的,所述根据搜救机器人的下一状态S
*
和环境观察值O
*
获取动作策略a的得分R以及终止状态E包括:
[0029]若下一状态S
*
中的搜救机器人坐标位于搜救范围内,且下一环境观察值O
*
中存在幸存者,则获取预设的奖励积分;
[0030]若下一状态S
*
中的搜救机器人坐标位于搜救范围内,则根据搜救机器人坐标与障碍物坐标或其他搜救机器人坐标判断是否发生碰撞,若发生碰撞,则对奖励积分扣除预设的碰撞分获取得分R,则终止状态设为终止;
[0031]若下一状态S
*
中的搜救机器人坐标位于搜救范围外,则终止状态设为终止。
[0032]可选的,所述通过模型训练样本集合训练更新自动搜救策略模型包括:
[0033]根据第i个搜救机器人的模型训练样本集合计算第i个搜救机器人的第t个缓存回放数组的目标奖励值
[0034][0035]其中,i=1,2,3

p,t=1,2,3

T,R
t
为第t个缓存回放数组的得分,γ为折扣因子,π

(
·
)为通过目标动作网络生成的策略动作,ω

为目标评价网络的权重参数,Q
i

(
·
)为通过目标评价网络生成的评价值,为第t个缓存回放数组的当前状态S
t
的下一状态;
[0036]将所有搜救机器人的第t个缓存回放数组的目标奖励值进行线性相加得到所有搜救机器人的目标奖励值
[0037][0038]基于目标奖励值构建第一损失函数,通过神经网络的梯度反向传播更新现实评价网络的权重参数ω;所述第一损失函数为:
[0039][0040]其中,π(
·
)为通过现实动作网络生成的策略动作,Q
i
(
·
)为通过现实目标评价网络生成的评价值;
[0041]基于目标奖励值构建第二损失函数,通过神经网络的梯度反向传播更新现实动作网络的权重参数θ;所述第二损失函数为:
[0042][0043]若t%C=0,则根据现实动作网络和现实评价网络的权重参数ω和θ更新目标动作网络和目标评价网络的权重参数ω

和θ


[0044]ω
′←
τω+(1

τ)ω

[0045]θ
′←
τθ+(1

τ)θ

[0046]其中,C为目标动作网络和目标评价网络的权重参数的更新频率,τ为更新系数;
[0047]对每个搜救机器人的模型训练样本集合D
T
获取的目标奖励值从高到低进行排序,根据排序结果对目标奖励值对应的动作策略的选择概率ε从低本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种搜救机器人的搜救方法,其特征在于,包括:当获取搜救指令时,初始化搜救机器人的自身状态;基于训练后的搜救策略模型根据自身状态生成自动搜救策略;根据自动搜救策略执行搜救动作;其中,所述自动搜救策略模型的训练包括:构建搜救的仿真环境,并根据仿真环境制定训练任务;构建基于VDN算法的自动搜救策略模型;对自动搜救策略模型进行初始化并基于训练任务进行训练。2.根据权利要求1所述的一种搜救机器人的搜救方法,其特征在于,所述训练任务为在仿真环境中设置搜救范围,在搜救范围内配置p个搜救机器人、m个幸存者、n个障碍物,且在搜救范围内每隔预设时间段在任意位置生成一个新的障碍物;搜救机器人在搜救范围内寻找幸存者,同时避免触碰到障碍物以及其他搜救机器人。3.根据权利要求1所述的一种搜救机器人的搜救方法,其特征在于,所述对自动搜救策略模型进行初始化并基于训练任务进行训练包括:初始化自动搜救策略模型,包括对自动搜救策略模型的现实动作网络、目标动作网络、现实评价网络以及目标评价网络进行初始化;通过搜救的仿真环境中基于自动搜救策略模型执行训练任务获取模型训练样本集合;通过模型训练样本集合训练更新自动搜救策略模型,并将更新后的自动搜救策略模型代替初始化的自动搜救策略模型带入上述步骤进行迭代;若到达预设的最大迭代次数,训练完成。4.根据权利要求1所述的一种搜救机器人的搜救方法,其特征在于,所述获取模型训练样本集合包括:获取搜救机器人的当前状态S和环境观察值O;根据初始化的自动搜救策略模型基于当前状态S和环境观察值O从动作集合A中选取动作策略a;根据动作策略a驱动搜救机器人在仿真环境中自动搜救并获取搜救机器人的下一状态S
*
和环境观察值O
*
;根据搜救机器人的下一状态S
*
和环境观察值O
*
获取动作策略a的得分R以及终止状态E;将搜救机器人的当前状态的特征向量φ(S)、下一状态的特征向量φ(S
*
)、动作策略a、得分R以及终止状态E保存为缓存回放数组,记为{φ(S),φ(S
*
),a,R,E};将缓存回放数组存入预构建的缓存回放经验池D中,并重复上述步骤直至缓存回放经验池D中缓存回放数组达到预设数量;从缓存回放经验池D中随机选取T个缓存回放数组生成模型训练样本集合D
T
。5.根据权利要求4所述的一种搜救机器人的搜救方法,其特征在于,所述状态包括搜救机器人坐标,所述环境观察值包括搜救机器人坐标周围预设范围内的障碍物、幸存者以及其他搜救机器人。6.根据权利要求5所述的一种搜救机器人的搜救方法,其特征在于,所述根据搜救机器人的下一状态S
*
和环境观察值O
*
获取动作策略a的得分R以及终止状态E包括:若下一状态S
*
中的搜救机器人坐标位于搜救范围内,且下一环境观察值O
*
中存在幸存
者,则获取预设的奖励积分;若下一状态S
*
中的搜救机器人坐标位于搜救范围内,则根据搜救机器人坐标与障碍物坐标或其他搜救机器人坐标判断是否发生碰撞,若发生碰撞,则对奖励积分扣除预设的碰撞分获取得分R,则终止状态设为终止;若下一状态S
*
中的搜救机器人坐标...

【专利技术属性】
技术研发人员:林泽阳赖俊陈希亮王军刘志飞
申请(专利权)人:中国人民解放军陆军工程大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1