System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于探索边界掩码优化语义目标导航任务的方法技术_技高网
当前位置: 首页 > 专利查询>南京大学专利>正文

一种基于探索边界掩码优化语义目标导航任务的方法技术

技术编号:40947717 阅读:5 留言:0更新日期:2024-04-18 20:21
本发明专利技术提供了一种基于探索边界掩码优化语义目标导航任务的方法,首先,建立和验证语义目标导航任务中路径规划终点选择的问题模型;其次,计算地图中已探索区域和未探索区域的分界线,称之为探索边界,将强化学习路径规划终点选择的动作空间限制在探索边界上;然后,利用探索边界上不同动作点之间的关系来优化价值计算,降低价值计算的方差;最后,处理训练样本的状态和动作,进行状态级别的数据增强,获取更多训练样本,提高规划终点选择的训练效率。本发明专利技术解决了语义目标导航任务中存在的低性能和低效率问题,路径长度加权的成功率指标提升了25.4%,仿真时间减少了3倍。

【技术实现步骤摘要】

本专利技术属于人工智能和机器人导航交叉领域,具体涉及一种基于探索边界掩码优化语义目标导航任务的方法


技术介绍

1、语义目标导航任务要求装有rgbd相机的机器人在未知地图环境中自主探索以找到特定类别的物体,对智能巡检、安防、勘探等具有重要意义。语义目标导航任务相当复杂,需要多种能力才能解决,例如场景建图能力、对物体排列关系的分析能力、探索与利用的权衡能力、路径规划能力等,每一种能力的缺失都会对任务完成的最终性能产生很大影响。语义目标导航任务通常使用带有路径长度加权的成功率(success weighted by pathlength,spl)来衡量,任务失败时spl为0,任务成功时spl为最短路径长度与实际路径长度的比值。

2、近几年提出了一些用于解决语义目标导航任务的方法。端到端的强化学习方法是无地图方法的代表,它直接学习从原始传感器数据到动作的映射,但需要耗费十亿级别的训练数据量,对训练时间和硬件资源的需求量很大,并且由于没有显式使用地图等结构化信息,它的测试性能也受到了限制。与之相反的是模块化的强化学习方法,它通过处理rgb图像和深度图像来维护一张语义地图,但这种方法仍然需要千万级别的训练数据量,且动作空间为地图上的每一个点,换言之,其动作空间很大,测试性能同样收到限制。

3、本专利技术针对语义目标导航任务的模块化解法,使用单智能体马尔科夫决策过程来建模语义目标导航任务的一次路径规划终点选择,使用探索边界掩码来降低强化学习动作空间规模,利用探索边界上不同动作点之间的价值相似性来降低价值计算的方差,使用状态级别数据增强来获得更多训练样本而无需额外的仿真时间,从而解决语义目标导航任务中存在的低性能和低效率问题。


技术实现思路

1、专利技术目的:本专利技术提出一种基于探索边界掩码优化语义目标导航任务的方法,以优化模块化算法对语义目标导航任务的解决。

2、技术方案:本专利技术所述的一种基于探索边界掩码优化语义目标导航任务的方法,包括以下步骤:

3、(1)建立和验证语义目标导航任务中路径规划终点选择的问题模型;

4、(2)计算地图中已探索区域和未探索区域的分界线,称之为探索边界,将强化学习路径规划终点选择的动作空间限制在探索边界上;

5、(3)利用探索边界上不同动作点之间的关系来优化价值计算,降低价值计算的方差;

6、(4)处理训练样本的状态和动作,进行状态级别的数据增强,获取更多训练样本,提高规划终点选择的训练效率。

7、进一步地,步骤(1)所述的问题模型表示为一个四元组<s,a,t,m>的形式;其中:

8、s代表机器人和环境信息的状态空间:每个时间步t下的状态st∈s包括第一人称rgb图像rgbt,第一人称深度图像deptht,机器人位姿信息poset;

9、a为机器人动作空间:每个时间步t下机器人采取的动作包括前进,左转,右转,停止,即at∈a={forward,left,right,stop};

10、t是状态转移函数:描述了下一时间步状态和当前时间步状态,当前时间步动作的关系,即st+1=t(st,at);

11、m是回合任务信息:每回合任务信息包括目标物体类别gcat,目标物体位置gpos。

12、进一步地,步骤(1)所述的问题模型建立包括第一人称rgb图像、第一人称深度图像、机器人位姿信息、目标物体类别和目标物体位置的训练样本。

13、进一步地,所述步骤(2)实现过程如下:

14、判断是否出现目标类别语义,若出现目标类别语义,则选择目标类别语义对应的像素点作为规划终点;判断是否看到当前规划终点,若未到达也未看到规划终点且存在到达规划终点的可通行路径,则沿用上一时间步的规划终点;否则执行以下步骤重新选择规划终点:首先对探索区域地图进行canny边缘检测得到探索边界,随后对探索边界进行分组与筛选,最后将筛选后的动作掩码用于限制规划终点选择。

15、进一步地,所述步骤(3)实现过程如下:

16、对于每一条筛选后的探索边界fr,计算其上每一个动作点所对应的价值,得到数组vfr:

17、vfr={v(p):p∈fr}

18、对数组vfr进行排序,得到svfr:

19、svfr=sort(vfr);

20、将同一条探索边界上所有价值位于中间三分之一的点的价值进行平均,得到该条探索边界最终的价值:

21、

22、进一步地,所述步骤(4)实现过程如下:

23、对于时间步t下得到的状态动作奖励对(st,at,rt),对at所处探索边界进行随机均匀采样,得到其中考虑实际任务执行中深度传感器的最大测量距离限制、物体遮挡、视角问题,构建地图会在局部位置上表现出明显差异,使用当前时间步状态与下一时间步状态混合作为增强状态,即s't=λst+(1-λ)st+1,λ控制了新获取局部地图的遮挡比例;最后将(s't,a't,rt)加入训练样本。

24、进一步地,所述判断是否出现目标类别语义是通过计算语义地图层中相应语义像素点的数量是否为0确定,即:

25、ngcatt=count({p:p∈semmapt and label(p)=gcat})

26、其中,label表示点对应的语义标签,semmapt为当前时间步下的语义地图;若ngcatt>0则判断已出现目标类别语义,否则判断为未出现。

27、进一步地,所述判断是否看到当前规划终点通过计算当前时间步下探索区域地图中规划终点周围10*10区域内已探索区域的像素点数量,即:

28、

29、若nseent>80则判断已看到当前规划终点,否则判断为未看到。

30、进一步地,所述对探索边界进行分组与筛选实现过程如下:

31、在探索区域地图中,将经过canny边缘检测得到的探索边界所在点设置为1,其余点均设置为0,得到显示探索边界的地图frmapt;将障碍物地图obsmapt中障碍物所对应点在frmapt中的值设置为0;对frmapt使用基于深度优先搜索的连通组件标记算法,即frmapt=dfslabel(frmapt),使不同探索边界在frmapt中以不同数字给出;去除距离智能体当前位置小于5个单位的探索边界;计算各个探索边界的长度,以探索边界上像素点的数量作为其长度,即lent(fri)=count({p∈frmapt:frmapt(p)=i});挑选出长度最大的三个探索边界。

32、进一步地,所述将筛选后的动作掩码用于限制规划终点选择为将筛选后探索边界以外动作点的策略概率分布设置为0、价值设置为无限小实现动作掩码限制。

33、有益效果:与现有技术相比,本专利技术的有益效果:本专利技术针对语义目标导航的模块化解决方法,使用探索边界掩码来降低强化学习动作空间规模,利用探索边界上不同动作点之间的本文档来自技高网...

【技术保护点】

1.一种基于探索边界掩码优化语义目标导航任务的方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于探索边界掩码优化语义目标导航任务的方法,其特征在于,步骤(1)所述的问题模型表示为一个四元组<S,A,T,M>的形式;其中:

3.根据权利要求1所述的一种基于探索边界掩码优化语义目标导航任务的方法,其特征在于,步骤(1)所述的问题模型建立包括第一人称RGB图像、第一人称深度图像、机器人位姿信息、目标物体类别和目标物体位置的训练样本。

4.根据权利要求1所述的一种基于探索边界掩码优化语义目标导航任务的方法,其特征在于,所述步骤(2)实现过程如下:

5.根据权利要求1所述的一种基于探索边界掩码优化语义目标导航任务的方法,其特征在于,所述步骤(3)实现过程如下:

6.根据权利要求1所述的一种基于探索边界掩码优化语义目标导航任务的方法,其特征在于,所述步骤(4)实现过程如下:

7.根据权利要求4所述的一种基于探索边界掩码优化语义目标导航任务的方法,其特征在于,所述判断是否出现目标类别语义是通过计算语义地图层中相应语义像素点的数量是否为0确定,即:

8.根据权利要求4所述的一种基于探索边界掩码优化语义目标导航任务的方法,其特征在于,所述判断是否看到当前规划终点通过计算当前时间步下探索区域地图中规划终点周围10*10区域内已探索区域的像素点数量,即:

9.根据权利要求4所述的一种基于探索边界掩码优化语义目标导航任务的方法,其特征在于,所述对探索边界进行分组与筛选实现过程如下:

10.根据权利要求4所述的一种基于探索边界掩码优化语义目标导航任务的方法,其特征在于,所述将筛选后的动作掩码用于限制规划终点选择为将筛选后探索边界以外动作点的策略概率分布设置为0、价值设置为无限小实现动作掩码限制。

...

【技术特征摘要】

1.一种基于探索边界掩码优化语义目标导航任务的方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于探索边界掩码优化语义目标导航任务的方法,其特征在于,步骤(1)所述的问题模型表示为一个四元组<s,a,t,m>的形式;其中:

3.根据权利要求1所述的一种基于探索边界掩码优化语义目标导航任务的方法,其特征在于,步骤(1)所述的问题模型建立包括第一人称rgb图像、第一人称深度图像、机器人位姿信息、目标物体类别和目标物体位置的训练样本。

4.根据权利要求1所述的一种基于探索边界掩码优化语义目标导航任务的方法,其特征在于,所述步骤(2)实现过程如下:

5.根据权利要求1所述的一种基于探索边界掩码优化语义目标导航任务的方法,其特征在于,所述步骤(3)实现过程如下:

6.根据权利要求1所述的一种基于探索边界掩码优化语义目标导航任务的方法...

【专利技术属性】
技术研发人员:霍静高宇李文斌梁欣悦高阳
申请(专利权)人:南京大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1