System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于分层关系及状态正则化的目标驱动导航方法及系统技术方案_技高网

基于分层关系及状态正则化的目标驱动导航方法及系统技术方案

技术编号:40960960 阅读:10 留言:0更新日期:2024-04-18 20:39
本发明专利技术属于视觉导航技术领域,公开了一种基于分层关系及状态正则化的目标驱动导航方法及系统;所述目标驱动导航方法包括以下步骤:步骤1,获取待寻找物品名称和全局观测图像,并检测获取所述全局观测图像中预设多种目标物品的外观特征、边界框位置、置信度和标签信息;步骤2,基于步骤1获取的数据信息,采用预先训练好的视觉导航网络进行导航,找到所述待寻找物品。本发明专利技术技术方案能够解决现有技术存在的家居环境中看不见目标导航困难问题以及导航状态之间高度相关性导致智能体死锁问题。

【技术实现步骤摘要】

本专利技术属于视觉导航(visual navigation),特别涉及一种基于分层关系及状态正则化的目标驱动导航方法及系统


技术介绍

1、居家服务机器人是居家养老行业探索的新方向,物品寻找任务是居家服务机器人的基础任务。家居场景具有空间布局复杂、房间种类多样、目标位置隐蔽等特点,给居家服务机器人的导航带来了很大难题。

2、视觉导航作为机器人和人工智能的一项基本任务,近年来受到越来越多的关注。目前,现有的视觉导航方法可分为两类,分别为基于地图的视觉导航方法和基于深度强化学习的视觉导航方法;其中,基于地图的视觉导航方法通常将导航任务分为映射、定位和路径规划三个步骤,并利用事先构建或运动过程中构建的环境地图进行导航,但是构建环境地图需要耗费大量资源,即使构建了地图,也不适用于看不见的全新环境;随着深度学习在端到端定位、探索等方面的广泛应用,基于深度强化学习的视觉导航方法逐渐应用在视觉导航任务中并大放异彩,这类方法利用视觉观察作为输入,将策略网络视为黑匣子,直接通过强化学习算法对其进行训练,来预测智能体下一步动作,指导智能体与环境交互。

3、目标驱动的视觉导航属于基于深度强化学习的导航方法,该导航任务要求智能体在有限的步长内找到指定的目标,导航过程中不提供环境地图信息,智能体能获取到的唯一信息是以自我为中心的rgb图像。对于看得见的目标,智能体可以快速简单地导航到指定位置,但对于看不见的目标,想要实现精准且快速的导航是十分具有挑战性的。另外,由于基于强化学习的目标导航任务普遍基于一阶马尔可夫假设建模,没有对导航状态之间的相关性做出明确约束,而导航状态之间的高度相关性是导致智能体死锁(解释性的,即智能体持续被困在某处,而不采用其他有效动作自主摆脱)的主要原因。


技术实现思路

1、本专利技术的目的在于提供一种基于分层关系及状态正则化的目标驱动导航方法及系统,以解决上述存在的一个或多个技术问题。本专利技术提供的技术方案中,提出了一种“由大找小”的目标层次关系,并设计一种状态正则化方法对导航状态之间的相关性施加明确约束,能够解决现有技术存在的家居环境中看不见目标导航困难问题以及导航状态之间高度相关性导致智能体死锁问题。

2、为达到上述目的,本专利技术采用以下技术方案:

3、本专利技术提供的一种基于分层关系及状态正则化的目标驱动导航方法,包括以下步骤:

4、步骤1,获取待寻找物品名称和全局观测图像,并检测获取所述全局观测图像中预设多种目标物品的外观特征、边界框位置、置信度和标签信息;

5、步骤2,基于步骤1获取的数据信息,采用预先训练好的视觉导航网络进行导航,找到所述待寻找物品。

6、本专利技术的进一步改进在于,步骤1中,所述检测获取所述全局观测图像中预设多种目标物品的外观特征、边界框位置、置信度和标签信息的步骤具体包括:

7、通过dino目标检测模型,检测获取所述全局观测图像中预设多种目标物品的外观特征、边界框位置、置信度和标签信息。

8、本专利技术的进一步改进在于,所述视觉导航网络包括:

9、局部特征嵌入模块,用于获取局部特征;

10、全局特征嵌入模块,用于获取全局特征;

11、视觉注意力模型,采用经典transformer架构;所述视觉注意力模型用于编码检测到的目标和观测区域的空间关系;其中,将所述局部特征作为键和值,将所述全局特征作为查询;

12、强化学习导航模块,包括:长短期记忆网络和异步优势演员-评论家网络,用于学习导航策略,指导智能体每一步动作;其中,所述长短期记忆网络的输入为上一时刻状态、上一时刻动作和当前时刻视觉注意力模型的解码器输出,输出为当前时刻的状态;所述当前时刻的状态输入异步优势演员-评论家网络;在所述异步优势演员-评论家网络中,actor网络用于生成策略,critic网络用于评价策略,二者通过互补方式不断协同更新,生成最优策略指导智能体动作。

13、本专利技术的进一步改进在于,

14、所述局部特征嵌入模块的整体操作过程表示为,

15、le=concat(relu(linear(α)),targetinfo);

16、式中,a为目标的局部外观特征;linear(·)为线性变换操作;relu(·)是激活函数,定义为relu(x)=max(0,x),用于执行非线性变换操作;concat为向量的连接操作;targetinfo为目标其他空间信息,le为期望得到的局部特征嵌入。

17、本专利技术的进一步改进在于,

18、所述全局特征嵌入模块的整体操作过程表示为,

19、ge=relu(conv1×1(x))+pe;

20、式中,x为全局图像外观特征;conv1×1(·)为滤波器尺寸为1×1的卷积运算;linear(·)为线性变换操作;relu(·)是激活函数,定义为relu(x)=max(0,x),用于执行非线性变换操作;pe为位置编码;ge为期望得到的全局特征嵌入。

21、本专利技术的进一步改进在于,所述视觉注意力模型解码器的注意力函数表示为,

22、

23、式中,g表示全局特征嵌入;l表示局部特征嵌入;d为映射后的全局外观特征通道维度。

24、本专利技术的进一步改进在于,所述异步优势演员-评论家网络中,奖励函数设置为,

25、

26、式中,r(s,a)为在状态s和动作a下的奖励r;rpartial为部分奖励;rpartial为目标奖励;rpublish为惩罚。

27、本专利技术的进一步改进在于,所述视觉导航网络的训练步骤包括:

28、使用迪杰斯特拉最短路径算法,生成最佳动作指令并作为人类专家体验,通过模仿学习监督训练视觉注意力网络,以强制输入特征与导航信号关联,获得预训练网络;其中,所述预训练网络采用的损失函数为,

29、

30、式中,crossentropy为交叉熵损失函数;a和分别为模型预测的动作和最佳动作指令;

31、加载所述预训练模型的权重,以作为所述视觉导航网络的初始化权重;输入当前时刻的观测图像和目标信息,经过视觉注意力模块处理后输入给长短期记忆网络,长短期记忆网络输出的状态表示作为异步优势演员-评论家网络的输入,再由异步优势演员-评论家网络中的actor网络输出动作指导智能体导航,并通过异步优势演员-评论家网络中的critic网络输出的值计算actor网络和critic网络的损失;

32、每步训练过程中,基于总损失函数计算损失函数数值,并从损失函数值开始执行反向传播;采用随机梯度下降优化器,根据反向传播所得梯度信息对网络参数进行优化,从而引导神经网络根据输入的环境信息实现精确导航;

33、其中,所述总损失函数的表达式为,

34、l=λ0lpolicy+λ1lvalue+λ2lsr;

35、式中,lpolicy是策略本文档来自技高网...

【技术保护点】

1.一种基于分层关系及状态正则化的目标驱动导航方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的目标驱动导航方法,其特征在于,步骤1中,所述检测获取所述全局观测图像中预设多种目标物品的外观特征、边界框位置、置信度和标签信息的步骤具体包括:

3.根据权利要求1所述的目标驱动导航方法,其特征在于,所述视觉导航网络包括:

4.根据权利要求3所述的目标驱动导航方法,其特征在于,

5.根据权利要求3所述的目标驱动导航方法,其特征在于,

6.根据权利要求3所述的目标驱动导航方法,其特征在于,所述视觉注意力模型解码器的注意力函数表示为,

7.根据权利要求3所述的目标驱动导航方法,其特征在于,所述异步优势演员-评论家网络中,奖励函数设置为,

8.根据权利要求7所述的目标驱动导航方法,其特征在于,所述视觉导航网络的训练步骤包括:

9.一种基于分层关系及状态正则化的目标驱动导航系统,其特征在于,包括:

【技术特征摘要】

1.一种基于分层关系及状态正则化的目标驱动导航方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的目标驱动导航方法,其特征在于,步骤1中,所述检测获取所述全局观测图像中预设多种目标物品的外观特征、边界框位置、置信度和标签信息的步骤具体包括:

3.根据权利要求1所述的目标驱动导航方法,其特征在于,所述视觉导航网络包括:

4.根据权利要求3所述的目标驱动导航方法,其特征在于,

5.根据权利要求3...

【专利技术属性】
技术研发人员:刘妹琴卢翀陈霸东
申请(专利权)人:西安交通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1