System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及移动体控制装置、移动体控制方法、学习装置、学习方法、生成装置及存储介质。
技术介绍
1、以往,已知有基于人类给出的指示文和输入图像来确定该输入图像中的物体的技术。例如,在专利文献1中,公开了如下技术:取得与特定的对象物相关的命令文,从与命令文建立了关联的输入图像中提取该输入图像所包含的表示各个物体的部分图像。在非专利文献1中,公开了如下技术:作为参照表现理解(rec)任务,基于指示文来检测输入图像中的地标。在非专利文献2中,公开了如下技术:基于指示文来预测目标位置的区域。
2、在先技术文献
3、专利文献
4、专利文献1:日本特开2020-190930号公报
5、非专利文献
6、非专利文献1:t.deruyttere,s.vandenhende,d.grujicic,et al.,“talk2car:taking control of your self driving car,”(讨论2车辆:控制你的自动驾驶车辆)emnlp ijcnlp,pp.2088-2098,2019.
7、非专利文献2:n.rufus,k.jain,u.k.r.nair,v.gandhi,and k.m.krishna,“grounding linguistic commands to navigable regions,”(对于可导航区域的基础语言指令)iros,pp.8593-8600,2021.
技术实现思路
1、专
2、在上述所示的以往技术中,通过将指示文的特征量和输入图像的特征量用不同的模型(特征空间)处理之后进行综合(late fusion:晚融合),来确定物体、位置。在该情况下,存在如下状况:在不怎么大量存在学习数据时不能学习语言与图像之间的多样的共同表现,不能适宜地学习其对应关系。
3、而且,例如,在移动体的行驶控制中,要求基于乘员给出的指示文和输入图像来确定移动体的停车位置。然而,在如非专利文献2所述的技术那样预测目标位置的分布、区域的方法中,有时不能唯一地确定移动体的停车位置,不能活用于移动体的行驶控制。
4、本专利技术是考虑这样的情况而完成的,其目的之一在于,提供能够使用适宜地学习了语言与图像之间的对应关系的学习完毕模型来唯一地确定移动体的停车位置的移动体控制装置、移动体控制方法、学习装置、学习方法、生成装置及存储介质。
5、用于解决课题的方案
6、本专利技术所涉及的移动体控制装置、移动体控制方法、学习装置、学习方法、生成装置及存储介质采用了以下的结构。
7、(1):本专利技术的一方案涉及一种移动体控制装置,其中,所述移动体控制装置具备:存储介质,其保存能够由计算机读入的命令;以及处理器,其连接于所述存储介质,所述处理器通过执行能够由所述计算机读入的命令而进行如下处理:取得由搭载于移动体的相机对所述移动体的周边进行拍摄得到的拍摄图像、以及由所述移动体的利用者输入的输入指示文;通过向包括事先学习完毕视觉语言模型在内的学习完毕模型中至少输入所述拍摄图像及所述输入指示文,来检测在所述拍摄图像中与所述输入指示文对应的所述移动体的停车位置,所述学习完毕模型以当至少输入图像及指示文时输出在所述图像中与所述指示文对应的所述移动体的停车位置的方式进行了学习;以及使所述移动体行驶到所述停车位置。
8、(2):在上述(1)的方案的基础上,所述学习完毕模型是以当输入所述拍摄图像、所述输入指示文及与所述输入指示文对应的地标时输出在所述图像中与所述指示文对应的所述移动体的停车位置的方式进行了学习的模型。
9、(3):在上述(1)的方案的基础上,所述学习完毕模型是在所述事先学习完毕视觉语言模型的输出层连接有将所述停车位置作为坐标信息而输出的全连接层的模型。
10、(4):本专利技术的一方案涉及一种移动体控制方法,其中,所述移动体控制方法使计算机进行如下处理:取得由搭载于移动体的相机对所述移动体的周边进行拍摄得到的拍摄图像、以及由所述移动体的利用者输入的输入指示文;通过向包括事先学习完毕视觉语言模型在内的学习完毕模型中至少输入所述拍摄图像及所述输入指示文,来检测在所述拍摄图像中与所述输入指示文对应的所述移动体的停车位置,所述学习完毕模型以当至少输入图像及指示文时输出在所述图像中与所述指示文对应的所述移动体的停车位置的方式进行了学习;以及使所述移动体行驶到所述停车位置。
11、(5):本专利技术的一方案涉及一种存储介质,其是存储有程序且能够由计算机读入的非暂时性存储介质,其中,所述程序使计算机进行如下处理:取得由搭载于移动体的相机对所述移动体的周边进行拍摄得到的拍摄图像、以及由所述移动体的利用者输入的输入指示文;通过向包括事先学习完毕视觉语言模型在内的学习完毕模型中至少输入所述拍摄图像及所述输入指示文,来检测在所述拍摄图像中与所述输入指示文对应的所述移动体的停车位置,所述学习完毕模型以当至少输入图像及指示文时输出在所述图像中与所述指示文对应的所述移动体的停车位置的方式进行了学习;以及使所述移动体行驶到所述停车位置。
12、(6):本专利技术的一方案涉及一种学习装置,其中,所述学习装置具备:存储介质,其保存能够由计算机读入的命令;以及处理器,其连接于所述存储介质,所述处理器通过执行能够由所述计算机读入的命令而进行如下处理:取得至少相对于图像及指示文而对应有表示在所述图像中与所述指示文对应的移动体的停车位置的注解的教示数据;以及基于所述教示数据和事先学习完毕视觉语言模型,以当至少输入图像及指示文时输出在所述图像中与所述指示文对应的移动体的停车位置的方式进行学习。
13、(7):在上述(6)的方案的基础上,所述处理器基于相对于所述图像、所述指示文及与所述指示文对应的地标而对应有表示在所述图像中与所述指示文对应的移动体的停车位置的注解的教示数据,以当输入所述图像、所述指示文及与所述指示文对应的地标时输出在所述图像中与所述指示文对应的移动体的停车位置的方式进行学习。
14、(8):在上述(6)的方案的基础上,在所述事先学习完毕视觉语言模型的输出层连接有将所述停车位置作为坐标信息而输出的全连接层,所述处理器以使表示所述注解与所述坐标信息之间的距离的损失函数的值减少的方式学习所述全连接层的参数。
15、(9):在上述(8)的方案的基础上,所述损失函数接受连续值作为输入值。
16、(10):本专利技术的一方案涉及一种学习方法,其中,所述学习方法使计算机进行如下处理:基于至少相对于图像及指示文而对应有表示在所述图像中与所述指示文对应的移动体的停车位置的注解的教示数据、以及事先学习完毕视觉语言模型,以当至少输入图像及指示文时输出在所述图像中与所述指示文对应的移动体的停车位置的方式进行学习。
17、(11):本专利技术的一方案涉及一种存储介质,其是存储有程序且能够由计算机读入的非暂时性存储介质,其中,所述程序使计算本文档来自技高网...
【技术保护点】
1.一种移动体控制装置,其中,
2.根据权利要求1所述的移动体控制装置,其中,
3.根据权利要求1所述的移动体控制装置,其中,
4.一种移动体控制方法,其中,
5.一种存储介质,其是存储有程序且能够由计算机读入的非暂时性存储介质,其中,
6.一种学习装置,其中,
7.根据权利要求6所述的学习装置,其中,
8.根据权利要求6所述的学习装置,其中,
9.根据权利要求8所述的学习装置,其中,
10.一种学习方法,其中,
11.一种存储介质,其是存储有程序且能够由计算机读入的非暂时性存储介质,其中,
12.一种生成装置,其中,
【技术特征摘要】
1.一种移动体控制装置,其中,
2.根据权利要求1所述的移动体控制装置,其中,
3.根据权利要求1所述的移动体控制装置,其中,
4.一种移动体控制方法,其中,
5.一种存储介质,其是存储有程序且能够由计算机读入的非暂时性存储介质,其中,
6.一种学习装置,其中,
【专利技术属性】
技术研发人员:细见直希,翠辉久,山田健太郎,畑中骏平,杨巍,杉浦孔明,
申请(专利权)人:本田技研工业株式会社,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。