基于自主学习的视觉导航方法技术

技术编号:39856363 阅读:5 留言:0更新日期:2023-12-30 12:54
本发明专利技术公开了一种基于自主学习的视觉导航方法,属于导航技术领域

【技术实现步骤摘要】
基于自主学习的视觉导航方法


[0001]本专利技术属于导航
,具体涉及一种基于自主学习的视觉导航方法


技术介绍

[0002]深度强化学习是一种端到端的感知与控制系统,有较强的通用性

异步的优势行动者评论家
(Asynchronous Advantage Actor

Critic,A3C)
算法是一种轻量级的深度强化学习框架,在各类连续动作空间的控制任务上表现最好

深度强化学习可以感知环境进而做出决策,应用到视觉导航中的智能体可以实现智能体与环境交互获得信息,进而导航和学习

[0003]在视觉导航中,智能体获取当前观测传递给当前网络,输出一个动作概率分布,随机取样获得动作

智能体将动作作用到当前环境后,再次获得新的观测值,即环境的状态转移

[0004]在传统的深度强化学习中,智能体通过输入的当前观测在环境中循环进行上述过程,直至到达目标地点

这样的模型中,策略函数的学习只依赖于当前状态,而导航目标则需要被隐式嵌入到模型的网络参数里,因而当导航目标发生变化时,需要训练新的导航参数,显然泛化能力很差


技术实现思路

[0005]本专利技术提供了一种基于自主学习的视觉导航方法,通过对视觉导航模型在训练过程中的学习率算法的优化,构造出了优化后的视觉导航模型,以提升导航性能

[0006]本专利技术采用的技术方案为:基于自主学习的视觉导航方法,该方法包括下列步骤:
[0007]步骤1,配置视觉导航的智能体在虚拟环境中的动作空间,以及设置智能体的奖励策略;
[0008]所述智能体的输入数据包括当前观测的图像数据和目标的图像数据,其中,当前观测的图像数据是指智能体在当前位置采集的视频图像帧;目标的图像数据是指智能体的目标位置处的视频图像帧;
[0009]步骤2,构建视觉导航模型;
[0010]所述视觉导航模型包括通用孪生层和场景特定层;
[0011]其中,通用孪生层使用两个权值共享的孪生网络将当前观测和目标转换到相同的嵌入空间,用于感知场景布局,再将场景布局的感知结果输入到场景特定层的对应场景中以获取策略分布和策略价值

[0012]所述孪生网络包括残差网络
ResNet

50、
全连接层和融合层,其中,残差网络
ResNet

50
用于提取当前观测和目标的图像数据的特征信息,并经过全连接层串联当前观测和目标的图像的特征信息,再通过融合层输出一个联合特征,以便于在场景特定层处理;
[0013]场景特定层包括若干个场景网络,每个场景网络对应一个场景,该场景网络包括策略网络和价值网络,其中,策略网络基于概率分布选择匹配的动作,价值网络基于当前选
择的动作进行评判评分,得到打分结果,策略网络再根据当前评分修改策略网络,实现两个网络相互补充;
[0014]步骤3,训练视觉导航模型,得到用于目标智能体的视觉导航模型;
[0015]训练时,采用均方根传播优化器对视觉导航模型的网络参数进行优化;
[0016]首先初始化学习率
η
为:
[0017][0018]其中,
η
initial
表示初始学习率,
α
为预设的调节因子,
e
为自然底数;
[0019]并且在学习率预热阶段,将第
t
次迭代训练过程中的学习率
η
t
更新为:
[0020][0021]其中,
T
warmup
表示学习率预热阶段的迭代次数;
[0022]在学习率预热阶段完成后,在每一次的迭代训练过程中将学习率
η
设置为:
[0023][0024]其中,
β
表示衰减指数,
step
表示时间步长,
T
max
表示迭代总次数,
k
表示控制学习率变化方式的超参数

[0025]本专利技术提供的技术方案至少带来如下有益效果:
[0026](1)
本专利技术构建了基于深度强化学习的视觉导航模型,该模型的核心是将智能体的目标作为输入传入网络使模型具有通用性,通过
ResNet

50
处理当前观测和目标的图像
(
例如
RGB
图像
)
,并将提取的特征传入
A3C
网络,输出智能体的下一步动作与策略的评估,经过不断地优化策略网络和价值网络输出性能稳定的视觉导航模型

[0027](2)
所采用的学习率优化方式,使模型在网络参数初始化时从很低的学习率开始学习,以免学习太多的错误信息,之后再持续升高学习率,保持一段时间的学习速度持续提高后,学习率到达最大值

为了稳定靠近损失函数的最优值,学习率呈阶梯状指数式下降,最后稳定在一个很小的学习率,避免模型在损失函数最优值附近振荡

通过对学习率算法的优化,使得视觉导航模型的训练效率更高,损失函数收敛更快

附图说明
[0028]为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图

[0029]图1是本专利技术实施例中,
AI2THOR
框架中的
bathroom
观测
RGB
图;
[0030]图2是本专利技术实施例提供的视觉导航模型的网络架构示意图;
[0031]图3是本专利技术实施例中,表达式树图形化

具体实施方式
[0032]为使本专利技术的目的

技术方案和优点更加清楚,下面将结合附图对本专利技术实施方式作进一步地详细描述

[0033]为了避免更换导航目标时的重新训练,使模型获得高泛化能力,使用目标驱动导航的模型

该模型的网络输入为智能体的当前观测和可视化的目标地点,使用模型时可以灵活指定新的目标,因而导航的目标不再需要训练到导航的参数里,由于训练目标和新目标具有一定的关联性,因而训练后的模型学习新的目标会比较容易

[0034]行动者评论家
(Actor

Critic,AC)
是一种强化学习方法

分为两个部分:
(1)
策略网络
Actor
:通过利用神经网络
π
(a|s...

【技术保护点】

【技术特征摘要】
1.
基于自主学习的视觉导航方法,其特征在于,包括下列步骤:步骤1,配置视觉导航的智能体在虚拟环境中的动作空间,以及设置智能体的奖励策略;所述智能体的输入数据包括当前观测的图像数据和目标的图像数据,其中,当前观测的图像数据是指智能体在当前位置采集的视频图像帧;目标的图像数据是指智能体的目标位置处的视频图像帧;步骤2,构建视觉导航模型;所述视觉导航模型包括通用孪生层和场景特定层;其中,通用孪生层使用两个权值共享的孪生网络将当前观测和目标转换到相同的嵌入空间,用于感知场景布局,再将场景布局的感知结果输入到场景特定层的对应场景中以获取策略分布和策略价值;所述孪生网络包括残差网络
ResNet

50、
全连接层和融合层,其中,残差网络
ResNet

50
用于提取当前观测和目标的图像数据的特征信息,并经过全连接层串联当前观测和目标的图像的特征信息,再通过融合层输出一个联合特征并送入场景特定层;场景特定层包括若干个场景网络,每个场景网络对应一个场景,该场景网络包括策略网络和价值网络,其中,策略网络基于概...

【专利技术属性】
技术研发人员:邢建川王菲付鱼陈洋周春文曾凤
申请(专利权)人:电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1