视觉语音导航方法、装置、设备及存储介质制造方法及图纸

技术编号:30894846 阅读:15 留言:0更新日期:2021-11-22 23:36
本发明专利技术提供一种视觉语音导航方法、装置、设备及存储介质,通过接收到的语义导航指令控制智能体行进,并在行进过程中采集实时的图像,从图像中识别行进路径上的路径对象特征,并提取该路径对象特征所预匹配的文本标签。当该文本标签恰好与语义导航指令中包含的目标路径节点的标识信息匹配时,则可以确定该路径对象为目标路径节点及基于该目标路径节点的行进转向方向,从而当智能体抵达目标路径节点时,根据行进转向方向控制智能体转向并进一步行动,直到抵达目的地。本发明专利技术技术方案创造性地提出了用语义信息作为锚点来对齐语义导航指令和智能体采集到的图像,提高智能体的理解能力,进而做出更精确的行动决策,提升视觉语音导航精确度。音导航精确度。音导航精确度。

【技术实现步骤摘要】
视觉语音导航方法、装置、设备及存储介质


[0001]本专利技术涉及计算机
,尤其涉及一种视觉语音导航方法、装置、设备及存储介质。

技术介绍

[0002]视觉语言导航(Visual Language Navigation)的主要任务是让机器人(智能体)遵照人类的自然语言指令在无先验地图的环境中进行导航。
[0003]如何实现精确的视觉语音导航,是业界普遍考虑的课题。

技术实现思路

[0004]本专利技术提供一种视觉语音导航方法、装置、设备及存储介质,用以解决现有技术中视觉语音导航需求,实现精确的视觉语音导航。
[0005]本专利技术提供一种视觉语音导航方法,包括:
[0006]接收语义导航指令,所述语义导航指令包括行进方向、至少一个目标路径节点和目的地;
[0007]按照所述行进方向控制智能体行进并在行进过程中采集图像;
[0008]从所述图像中识别路径对象特征并获取所述路径对象特征所预匹配的文本标签;
[0009]若所述文本标签与所述目标路径节点的标识信息匹配,则确定基于所述目标路径节点的行进转向方向;
[0010]当所述智能体抵达所述目标路径节点时,则根据所述行进转向方向控制所述智能体转向,直到抵达所述目的地。
[0011]根据本专利技术提供的一种视觉语音导航方法,从所述图像中识别路径对象特征并获取所述路径对象特征所预匹配的文本标签,包括:
[0012]使用图像识别模型从所述图像中识别路径对象特征并获取所述路径对象特征所预匹配的文本标签,所述图像识别模型为利用带有所述文本标签的图像样本数据训练得到的。
[0013]根据本专利技术提供的一种视觉语音导航方法,所述图像识别模型采用Faster RCNN网络,则从所述图像中识别路径对象特征,包括:
[0014]利用卷积层从所述图像中提取特征图;
[0015]利用区域生成网络对所述特征图提取候选框;
[0016]利用特征映射的方法将所述候选框的位置映射到所述特征图相应位置,并提取所述路径对象特征。
[0017]根据本专利技术提供的一种视觉语音导航方法,确定基于所述目标路径节点的行进转向方向,包括:
[0018]从所述语义导航指令中识别到基于所述目标路径节点的所述行进转向方向。
[0019]根据本专利技术提供的一种视觉语音导航方法,确定基于所述目标路径节点的行进转
向方向,包括:
[0020]从所述图像中识别基于所述目标路径节点向所述目的地的行进转向标记,根据所述行进转向标记确定所述行进转向方向。
[0021]根据本专利技术提供的一种视觉语音导航方法,所述语义导航指令包括输入文本信息或语音信息。
[0022]根据本专利技术提供的一种视觉语音导航方法,在接收到所述语义导航指令时,还包括:
[0023]使用语义识别模型对所述语义导航指令进行语义识别以得到文本信息,所述文本信息包括所述行进方向、至少一个目标路径节点和目的地;
[0024]所述语义识别模型是采用样本数据训练得到的。
[0025]本专利技术还提供一种视觉语音导航装置,包括:
[0026]接收模块,接收语义导航指令,所述语义导航指令包括行进方向、至少一个目标路径节点和目的地;
[0027]采集模块,按照所述行进方向控制智能体行进并在行进过程中采集图像;
[0028]识别模块,从所述图像中识别路径对象特征并获取所述路径对象特征所预匹配的文本标签;
[0029]确定模块,若所述文本标签与所述目标路径节点的标识信息匹配,则确定基于所述目标路径节点的行进转向方向;
[0030]转向模块,当所述智能体抵达所述目标路径节点时,则用于根据所述行进转向方向控制所述智能体转向,直到抵达所述目的地。
[0031]本专利技术还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述视觉语音导航方法的步骤。
[0032]本专利技术还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述视觉语音导航方法的步骤。
[0033]本专利技术提供的视觉语音导航方法、装置、设备及存储介质,通过接收到的语义导航指令控制智能体行进,并在行进过程中采集实时的图像,从图像中识别行进路径上的路径对象特征,并提取该路径对象特征所预匹配的文本标签。当该文本标签恰好与语义导航指令中包含的目标路径节点的标识信息匹配时,则可以确定该路径对象为目标路径节点及基于该目标路径节点的行进转向方向,从而当智能体抵达目标路径节点时,根据行进转向方向控制智能体转向并进一步行动,直到抵达目的地。
[0034]本专利技术技术方案创造性地提出了用语义信息作为锚点来对齐语义导航指令和智能体采集到的图像,路径对象的图像特征通过文本标签文本化,图像特征和语义导航指令基于语义信息直接匹配,从而排除了基于距离或时序关系的间接匹配。直接的语义匹配使得图像和语义导航指令能够更好地相互理解,也提高智能体的理解能力,进而做出更精确的行动决策,提升视觉语音导航精确度。
附图说明
[0035]为了更清楚地说明本专利技术或现有技术中的技术方案,下面将对实施例或现有技术
描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0036]图1是本专利技术实施例提供的视觉语音导航方法的流程示意图之一;
[0037]图2是本专利技术实施例提供的视觉语音导航方法的流程示意图之二;
[0038]图3是本专利技术实施例提供的视觉语音导航方法的流程示意图之三;
[0039]图4是本专利技术实施例提供的视觉语音导航装置的结构示意图;
[0040]图5是本专利技术提供的电子设备的结构示意图。
具体实施方式
[0041]为使本专利技术的目的、技术方案和优点更加清楚,下面将结合本专利技术中的附图,对本专利技术中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0042]在对现有技术的视觉语音导航方案研究过程中发现,目前采用的方法是利用带有注意力(attention)模型的Seq

to

seq的网络,端到端的预测下一步的行动。该网络基于LSTM结构主要包括编码器和解码器。
[0043]将语言指令中的每个单词x
i
作为embedding输入给编码器LSTM
enc
。在时刻i将编码器的输出表示为h
i
,这样h
i
=LSTM
enc
(x
i
,h
i...

【技术保护点】

【技术特征摘要】
1.一种视觉语音导航方法,其特征在于,包括:接收语义导航指令,所述语义导航指令包括行进方向、至少一个目标路径节点和目的地;按照所述行进方向控制智能体行进并在行进过程中采集图像;从所述图像中识别路径对象特征并获取所述路径对象特征所预匹配的文本标签;若所述文本标签与所述目标路径节点的标识信息匹配,则确定基于所述目标路径节点的行进转向方向;当所述智能体抵达所述目标路径节点时,则根据所述行进转向方向控制所述智能体转向,直到抵达所述目的地。2.根据权利要求1所述的视觉语音导航方法,其特征在于,从所述图像中识别路径对象特征并获取所述路径对象特征所预匹配的文本标签,包括:使用图像识别模型从所述图像中识别路径对象特征并获取所述路径对象特征所预匹配的文本标签,所述图像识别模型为利用带有所述文本标签的图像样本数据训练得到的。3.根据权利要求2所述的视觉语音导航方法,其特征在于,所述图像识别模型采用Faster RCNN网络,则从所述图像中识别路径对象特征,包括:利用卷积层从所述图像中提取特征图;利用区域生成网络对所述特征图提取候选框;利用特征映射的方法将所述候选框的位置映射到所述特征图相应位置,并提取所述路径对象特征。4.根据权利要求1所述的视觉语音导航方法,其特征在于,确定基于所述目标路径节点的行进转向方向,包括:从所述语义导航指令中识别到基于所述目标路径节点的所述行进转向方向。5.根据权利要求1所述的视觉语音导航方法,其特征在于,确定基于所述目标路径节点的行进转向方向,包括:从所述图像中识...

【专利技术属性】
技术研发人员:李伟左星星杨睿刚
申请(专利权)人:际络科技上海有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1