System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种室内物品飞行搬运机器人目标跟踪方法和装置制造方法及图纸_技高网

一种室内物品飞行搬运机器人目标跟踪方法和装置制造方法及图纸

技术编号:40982391 阅读:2 留言:0更新日期:2024-04-18 21:28
一种室内物品飞行搬运机器人目标跟踪方法和装置,该方法包括:构建马尔可夫决策过程五元组表征室内物品飞行搬运机器人与环境的交互过程;接收多个室内物品飞行搬运机器人发送的预测请求,预测请求中包括当前时刻室内物品飞行搬运机器人所处的状态;将各预测请求输入生成对抗网络的生成网络得到相应的动作并发送到对应的室内物品飞行搬运机器人执行;其中状态‑动作对存储到训练队列中,当训练队列中的数据存满时,取出状态‑动作对作为样本训练生成对抗网络的生成网络和判别网络。通过处于相同室内环境的多个室内物品飞行搬运机器人收集训练样本,减少了样本之间的相关性,避免网络训练陷入局部收敛,从而能更准确地跟踪目标。

【技术实现步骤摘要】

本专利技术涉及飞行机器人控制,具体涉及一种室内物品飞行搬运机器人目标跟踪方法和装置、计算机可读存储介质。


技术介绍

1、随着人工智能基础理论的快速发展,基于人工智能技术的应用也越来越广泛。计算机视觉是人工智能领域最活跃方向之一,基于计算机视觉技术的三维重建,vr、ar技术也得到了大力发展,充分表明了计算机视觉技术的广阔应用前景。计算机视觉研究的本质是让机器也能像人一样能够理解图像信息,并根据这些信息得到一定的判断。飞行机器人结构简单、价格便宜、维护方便,在室内巡检、物品搬运等领域得到了越来越多的关注,将飞行机器人应用场景与计算机视觉结合起来,可以加快飞行机器人领域和计算机视觉领域的发展速度,提升技术发展水平。

2、目标跟踪技术是计算机视觉领域研究的热点,目标跟踪是计算机视觉中的一个经典问题,它的任务就是从图像序列中判断出是否有目标,给出目标的类别和位置并且跟踪其运动过程。在民用方面,目标跟踪技术是整个安防领域智能监控的基础,可以对特定目标进行持续的跟踪运动,是室内环境监测与安防的关键技术手段。此外,目标跟踪技术也是飞行机器人搬运任务的基础,通过跟踪待搬运的目标,引导飞行机器人向目标飞行。传统的目标跟踪技术常常依赖手工设计的目标特征来实现,无法满足复杂场景下的任务需求,随着深度学习技术的快速发展,基于深度学习的目标跟踪算法由于其良好的性能受到越来越多的关注,通过深度卷积神经网络来提取的目标特征比传统的手工特征有更好的鲁棒性,在精度方面有着质的提升。近年来,基于深度学习的目标跟踪算法逐渐向轻量化发展,随着计算硬件的迭代更新,深度学习对高计算力的需求也逐渐得到解决,基于深度学习的目标跟踪方法在嵌入式终端设备上有了落地的可能。但是,现阶段的深度学习算法泛化能力较差,仅适用于有限的数据样本,同时生成的数据样本信息高度相关,会导致训练时目标跟踪算法局部收敛,使得难以准确跟踪目标。


技术实现思路

1、本专利技术主要解决现有的基于深度学习的飞行机器人目标跟踪算法生成的数据样本信息高度相关,会导致训练时目标跟踪算法局部收敛的技术问题。

2、根据第一方面,一种实施例中提供一种室内物品飞行搬运机器人目标跟踪方法,所述室内物品飞行搬运机器人有多个,且均处于相同的室内环境中,所述室内物品飞行搬运机器人目标跟踪方法包括:

3、预先构建用于表征所述室内物品飞行搬运机器人与环境交互过程的马尔可夫决策过程五元组(s,a,t,r,γ),其中s是马尔可夫决策过程的状态空间,a是马尔可夫决策过程的动作空间,t是状态转换模型,具体形式为t(s′|s,a),表示所述室内物品飞行搬运机器人在状态s′而忽略状态s时,执行动作a的概率,r是深度强化学习的奖励函数,γ是贴现因子;

4、状态获取步骤,接收各所述室内物品飞行搬运机器人发送的预测请求并加入到预测队列中,所述预测请求包括当前时刻所述室内物品飞行搬运机器人所处的状态s,其中当前时刻所述室内物品飞行搬运机器人所处的状态s根据当前时刻所述室内物品飞行搬运机器人拍摄的目标的图像而得到,s∈s;

5、动作执行步骤,读取预测队列中的预测请求并输入预设的生成对抗网络的生成网络gθ中而得到相应的动作a,将动作a发送到对应的室内物品飞行搬运机器人,以使其执行动作a,经过时间步长δt后进入下一时刻;其中状态-动作对(s,a)被存储到训练队列中,θ表示生成网络的参数,a∈a;

6、重复执行所述状态获取步骤和所述动作执行步骤;

7、每当训练队列中的数据存满时,取出训练队列中的状态-动作对(s,a)作为样本,对所述生成对抗网络的生成网络gθ和判别网络dψ进行训练,其中ψ表示判别网络的参数。

8、一些实施例中,所述对所述生成对抗网络的生成网络gθ和判别网络dψ进行训练包括:

9、分别将训练队列中的各个状态-动作对(s,a)输入判别网络dψ以得到对应的判别分数dψ(s,a);

10、根据判别分数dψ(s,a)和第一优化目标,采用近端策略优化对生成网络gθ进行参数更新,根据判别分数dψ(s,a)和第二优化目标对判别网络dψ进行参数更新;

11、其中生成网络gθ作为策略网络,用于模仿专家策略,所述第一优化目标为使判别网络dψ对生成网络gθ的状态-动作对(s,a)输出的判别分数趋近判别网络dψ对专家策略的状态-动作对(s,a)的判别分数;

12、判别网络dψ用于区分训练队列中的状态-动作对(s,a)形成的轨迹是否由专家策略形成,所述第二优化目标为使判别网络dψ对生成网络gθ的状态-动作对(s,a)输出相对更低的判别分数,对专家策略的状态-动作对(s,a)输出相对更高的判别分数。

13、一些实施例中,所述的室内物品飞行搬运机器人目标跟踪方法还包括:根据所述奖励函数计算得到训练队列中的各个状态-动作对(s,a)对应的奖励值,计算奖励值的方差,当奖励值的方差大于预设的方差阈值时更新时间步长δt。

14、一些实施例中,所述奖励函数与判别分数dψ(s,a)正相关。

15、一些实施例中,所述第一优化目标的目标函数为:

16、

17、其中πθ表示生成网络gθ的策略,表示参数更新前的策略,表示参数更新后的策略,表示累积奖励值,表示采用参数更新前的策略在状态s下采取动作a的概率,表示采用参数更新后的策略在状态s下采取动作a的概率,aθ(s,a)是策略πθ的优势函数,是参数更新前后的策略的kl散度。

18、一些实施例中,其中δ是kl散度的约束参数。

19、一些实施例中,所述第二优化目标的目标函数为:

20、

21、其中πe表示专家策略,e表示期望算子。

22、根据第二方面,一种实施例中提供一种室内物品飞行搬运机器人目标跟踪装置,包括:

23、交互过程预构建模块,用于预先构建用于表征所述室内物品飞行搬运机器人与环境交互过程的马尔可夫决策过程五元组(s,a,t,r,γ),其中s是马尔可夫决策过程的状态空间,a是马尔可夫决策过程的动作空间,t是状态转换模型,具体形式为t(s′|s,a),表示所述室内物品飞行搬运机器人在状态s′而忽略状态s时,执行动作a的概率,r是深度强化学习的奖励函数,γ是贴现因子;

24、状态获取模块,用于实现状态获取步骤,所述状态获取步骤包括:接收各所述室内物品飞行搬运机器人发送的预测请求并加入到预测队列中,所述预测请求包括当前时刻所述室内物品飞行搬运机器人所处的状态s,其中当前时刻所述室内物品飞行搬运机器人所处的状态s根据当前时刻所述室内物品飞行搬运机器人拍摄的目标的图像而得到,s∈s;

25、动作执行模块,用于实现动作执行步骤,所述动作执行步骤包括:读取预测队列中的预测请求并输入预设的生成对抗网络的生成网络gθ中而得到相应的动作a,将动作a发送到对应的室内物品飞行搬运机器人,以使其执行动作a,经过时间步长δt后进入下一时刻;其中状态-动作对(s,a)本文档来自技高网...

【技术保护点】

1.一种室内物品飞行搬运机器人目标跟踪方法,其特征在于,所述室内物品飞行搬运机器人有多个,且均处于相同的室内环境中,所述室内物品飞行搬运机器人目标跟踪方法包括:

2.如权利要求1所述的室内物品飞行搬运机器人目标跟踪方法,其特征在于,所述对所述生成对抗网络的生成网络Gθ和判别网络Dψ进行训练包括:

3.如权利要求2所述的室内物品飞行搬运机器人目标跟踪方法,其特征在于,还包括:根据所述奖励函数计算得到训练队列中的各个状态-动作对(s,a)对应的奖励值,计算奖励值的方差,当奖励值的方差大于预设的方差阈值时更新时间步长Δt。

4.如权利要求2或3所述的室内物品飞行搬运机器人目标跟踪方法,其特征在于,所述奖励函数与判别分数Dψ(s,a)正相关。

5.如权利要求4所述的室内物品飞行搬运机器人目标跟踪方法,其特征在于,所述第一优化目标的目标函数为:

6.如权利要求5所述的室内物品飞行搬运机器人目标跟踪方法,其特征在于,其中δ是KL散度的约束参数。

7.如权利要求4所述的室内物品飞行搬运机器人目标跟踪方法,其特征在于,所述第二优化目标的目标函数为:

8.一种室内物品飞行搬运机器人目标跟踪装置,其特征在于,所述室内物品飞行搬运机器人有多个,且均处于相同的室内环境中,所述室内物品飞行搬运机器人目标跟踪装置包括:

9.如权利要求8所述的室内物品飞行搬运机器人目标跟踪装置,其特征在于,网络更新模块对所述生成对抗网络的生成网络Gθ和判别网络Dψ进行训练包括:

10.一种计算机可读存储介质,其特征在于,所述介质上存储有程序,所述程序能够被处理器执行以实现如权利要求1至7中任一项所述的室内物品飞行搬运机器人目标跟踪方法。

...

【技术特征摘要】

1.一种室内物品飞行搬运机器人目标跟踪方法,其特征在于,所述室内物品飞行搬运机器人有多个,且均处于相同的室内环境中,所述室内物品飞行搬运机器人目标跟踪方法包括:

2.如权利要求1所述的室内物品飞行搬运机器人目标跟踪方法,其特征在于,所述对所述生成对抗网络的生成网络gθ和判别网络dψ进行训练包括:

3.如权利要求2所述的室内物品飞行搬运机器人目标跟踪方法,其特征在于,还包括:根据所述奖励函数计算得到训练队列中的各个状态-动作对(s,a)对应的奖励值,计算奖励值的方差,当奖励值的方差大于预设的方差阈值时更新时间步长δt。

4.如权利要求2或3所述的室内物品飞行搬运机器人目标跟踪方法,其特征在于,所述奖励函数与判别分数dψ(s,a)正相关。

5.如权利要求4所述的室内物品飞行搬运机器人目标跟踪方法,其特征在于,...

【专利技术属性】
技术研发人员:贺振中李宁吴福胜余风云
申请(专利权)人:深圳市华赛睿飞智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1