视觉语音导航方法、装置、设备及存储介质制造方法及图纸

技术编号：30894846 阅读：15 留言：0更新日期：2021-11-22 23:36

本发明专利技术提供一种视觉语音导航方法、装置、设备及存储介质，通过接收到的语义导航指令控制智能体行进，并在行进过程中采集实时的图像，从图像中识别行进路径上的路径对象特征，并提取该路径对象特征所预匹配的文本标签。当该文本标签恰好与语义导航指令中包含的目标路径节点的标识信息匹配时，则可以确定该路径对象为目标路径节点及基于该目标路径节点的行进转向方向，从而当智能体抵达目标路径节点时，根据行进转向方向控制智能体转向并进一步行动，直到抵达目的地。本发明专利技术技术方案创造性地提出了用语义信息作为锚点来对齐语义导航指令和智能体采集到的图像，提高智能体的理解能力，进而做出更精确的行动决策，提升视觉语音导航精确度。音导航精确度。音导航精确度。

全部详细技术资料下载

【技术实现步骤摘要】
视觉语音导航方法、装置、设备及存储介质

[0001]本专利技术涉及计算机
，尤其涉及一种视觉语音导航方法、装置、设备及存储介质。

技术介绍

[0002]视觉语言导航(Visual Language Navigation)的主要任务是让机器人(智能体)遵照人类的自然语言指令在无先验地图的环境中进行导航。
[0003]如何实现精确的视觉语音导航，是业界普遍考虑的课题。

技术实现思路

[0004]本专利技术提供一种视觉语音导航方法、装置、设备及存储介质，用以解决现有技术中视觉语音导航需求，实现精确的视觉语音导航。
[0005]本专利技术提供一种视觉语音导航方法，包括：
[0006]接收语义导航指令，所述语义导航指令包括行进方向、至少一个目标路径节点和目的地；
[0007]按照所述行进方向控制智能体行进并在行进过程中采集图像；
[0008]从所述图像中识别路径对象特征并获取所述路径对象特征所预匹配的文本标签；
[0009]若所述文本标签与所述目标路径节点的标识信息匹配，则确定基于所述目标路径节点的行进转向方向；
[0010]当所述智能体抵达所述目标路径节点时，则根据所述行进转向方向控制所述智能体转向，直到抵达所述目的地。
[0011]根据本专利技术提供的一种视觉语音导航方法，从所述图像中识别路径对象特征并获取所述路径对象特征所预匹配的文本标签，包括：
[0012]使用图像识别模型从所述图像中识别路径对象特征并获取所述路径对象特征所预

【技术保护点】

【技术特征摘要】
1.一种视觉语音导航方法，其特征在于，包括：接收语义导航指令，所述语义导航指令包括行进方向、至少一个目标路径节点和目的地；按照所述行进方向控制智能体行进并在行进过程中采集图像；从所述图像中识别路径对象特征并获取所述路径对象特征所预匹配的文本标签；若所述文本标签与所述目标路径节点的标识信息匹配，则确定基于所述目标路径节点的行进转向方向；当所述智能体抵达所述目标路径节点时，则根据所述行进转向方向控制所述智能体转向，直到抵达所述目的地。2.根据权利要求1所述的视觉语音导航方法，其特征在于，从所述图像中识别路径对象特征并获取所述路径对象特征所预匹配的文本标签，包括：使用图像识别模型从所述图像中识别路径对象特征并获取所述路径对象特征所预匹配的文本标签，所述图像识别模型为利用带有所述文本标签的图像样本数据训练得到的。3.根据权利要求2所述的视觉语音导航方法，其特征在于，所述图像识别模型采用Faster RCNN网络，则从所述图像中识别路径对象特征，包括：利用卷积层从所述图像中提取特征图；利用区域生成网络对所述特征图提取候选框；利用特征映射的方法将所述候选框的位置映射到所述特征图相应位置，并提取所述路径对象特征。4.根据权利要求1所述的视觉语音导航方法，其特征在于，确定基于所述目标路径节点的行进转向方向，包括：从所述语义导航指令中识别到基于所述目标路径节点的所述行进转向方向。5.根据权利要求1所述的视觉语音导航方法，其特征在于，确定基于所述目标路径节点的行进转向方向，包括：从所述图像中识...

【专利技术属性】
技术研发人员：李伟，左星星，杨睿刚，
申请(专利权)人：际络科技上海有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人