【技术实现步骤摘要】
服务机器人自适应目标导航方法及系统
[0001]本专利技术涉及导航
,特别是涉及服务机器人自适应目标导航方法及系统。
技术介绍
[0002]本部分的陈述仅仅是提到了与本专利技术相关的
技术介绍
,并不必然构成现有技术。
[0003]近年来,机器人领域的相关研究取得了显著的进展,并产生了一定的社会效应,各种服务型机器人正逐步融入人们生产生活。随着服务机器人应用场景的扩展和功能需求的增加,作为一系列具体下游任务的基础(如视觉问答和物品抓取等),机器人的灵活性已成为影响其发展推广的重要因素。
[0004]经典的室内服务机器人导航技术通常首先需要从构建场景先验(环境地图)开始,然后基于已知或分段确定的目标点来规划和执行规划的轨迹。尽管这些方法多年来取得了相当大的成功,但模块化的设计思路具有根本的限制,阻碍了它们的广泛采用。一个重要的限制是算法非常容易受到传感器噪声的影响,例如,作为导航实现的前提,建图阶段过于依赖传感器的精度,这导致地图的建立和维护很容易受到测量噪声的影响,地图的准确性也会由于环境的变化而随着时间的 ...
【技术保护点】
【技术特征摘要】
1.服务机器人自适应目标导航方法,其特征是,包括:获取室内若干幅家庭场景图像,确定导航任务目标图像,将服务机器人视为智能体,设置智能体的初始位置为场景中的随机点;获取智能体第一人称视角下的视觉观测图像,基于训练后的卷积神经网络,提取视觉观测图像的语义特征和目标图像的语义特征;基于目标图像的语义特征,和智能体每执行一个动作所采集的视觉观测图像的语义特征,确定目标注意概率分布;基于智能体每执行一个动作所采集的视觉观测图像的语义特征和智能体当前时刻之前的轨迹中所收集到的经验,确定经验注意概率分布;所述智能体当前时刻之前的轨迹中所收集到的经验,包括:历史动作、按照序列观察到的图像和观测
‑
经验联合表征;基于目标注意概率分布和经验注意概率分布,得到融合概率分布;基于融合概率分布、当前时刻视觉观测图像的语义特征、当前时刻目标图像的语义特征和视觉观测图像区域位置空间特征,构建全局注意嵌入向量;将全局注意嵌入向量,输入到深度强化学习网络中,深度强化学习网络输出动作决策,完成目标导航。2.如权利要求1所述的服务机器人自适应目标导航方法,其特征是,基于目标图像的语义特征,和智能体每执行一个动作所采集的视觉观测图像的语义特征,确定目标注意概率分布;具体包括:对于所索引为i,j的区域,计算在t时刻状态下的观测
‑
目标联合表征目标联合表征其中,i的取值范围是1,...,n
p
,j的取值范围是1,...,n
p
;u
g
表示目标图像的语义特征;对来自t时刻智能体视觉观测使用卷积神经网络提取语义信息,输出维度为n
p
×
n
p
×
d
p
,与观测图像的区域映射索引i,j,...,n
p
,(i,j)
t
的位置对应于观察到的图像中的区域语义信息用向量表示;目标图像的语义特征用特征向量表示,u
g
与观测输入特征向量之间的相互作用使用向量的内积运算嵌入到相同的特征空间,令可训练的参数矩阵和参数分别将和u
g
转换到d维空间;对于所索引为i,j={1,...,n
p
}的区域,计算在t时刻状态下的观测
‑
目标联合表征对观测
‑
目标联合表征采用softmax函数运算得到目标注意概率分布3.如权利要求1所述的服务机器人自适应目标导航方法,其特征是,基于智能体每执行一个动作所采集的视觉观测图像的语义特征和智能体当前时刻之前的轨迹中所收集到的经验,确定经验注意概率分布;具体包括:基于观测输入图像学习一个概率分布函数,由t
‑
1时刻的LSTM的隐藏状态携带t
‑
1时刻的经验,作为t时刻经验注意模块的输入,其中LSTM的输入是状态观测的联合表征;将t
‑
1时刻的LSTM隐藏状态表示为使用可训练的参数矩阵将其同
样映射到d维空间,计算在t时刻状态下的观测
‑
经验联合表征经验联合表征对联合表征应用softmax函数运算得到相应的注意概率分布4.如权利要求1所述的服务机器人自适应目标导航方法,其特征是,基于目标注意概率分布和经验注意概率分布,得到融合概率分布;具体包括:将t时刻所有的目标注意概率分布和经验注意概率分布设置权重后,进行点乘并归一化,得到融合概率分布。5.如权利要求1所述的服务机器人自适应目标导航方法,其特征是,将全局注意嵌入向量,输入到深度强化学习网络中,深度强化学习网络输出动作决策,完成目标导航;具体包括:将全局注意嵌入向量按顺序输入到深度强化学习网络SAC中,智能体将基于当前模型中的参数在动作空间中决策选出最佳动作,机器人...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。