基于交互输入的图像定位方法、装置、设备和存储介质制造方法及图纸

技术编号：24853674 阅读：24 留言：0更新日期：2020-07-10 19:07

本申请的实施例提供了一种基于交互输入的图像定位方法、装置、设备和存储介质，该方法包括获取与图像对应的第一特征信息以及与交互输入对应的第二特征信息；根据第一特征信息和第二特征信息，在图像中的对象中，对交互输入进行目标定位。

全部详细技术资料下载

【技术实现步骤摘要】
基于交互输入的图像定位方法、装置、设备和存储介质
本申请涉及人机交互
，具体而言，涉及一种基于交互输入的图像定位方法、装置、设备和存储介质。
技术介绍
基于交互输入进行目标定位是人机交互技术的一个重要的研究领域。一方面，在计算机视觉中广泛应用目标检测(objectdetection)技术。目标检测是计算机视觉中从图像或视频(如视频的某一帧)中检测特定类别对象的一种技术。具体来说，对于输入的图像，能够给出图像中每个对象的包围框(boundingbox)，并给出对应的对象类别标签(label)。另一方面，在人机交互中，计算机能够根据人类的交流习惯来理解用户的交互输入。例如，对于用户输入的语音，计算机首先采用语音识别技术，将用户发出的语音命令转换成文字，进而生成便于计算机理解用户指令。然后，计算机可以通过句法分析等自然语言处理(NaturalLanguageProcessing)的相关技术，提取用户指令中的名词。根据交互输入进行目标定位的人机交互技术将二者结合起来，就能够在一定程度上让计算机理解(定位)用户所指代的某个对象，...

【技术保护点】
1.一种基于交互输入的图像定位方法，包括：/n获取与图像对应的第一特征信息以及与交互输入对应的第二特征信息；/n根据所述第一特征信息和所述第二特征信息，在所述图像中的对象中，对所述交互输入进行目标定位。/n

【技术特征摘要】
1.一种基于交互输入的图像定位方法，包括：
获取与图像对应的第一特征信息以及与交互输入对应的第二特征信息；
根据所述第一特征信息和所述第二特征信息，在所述图像中的对象中，对所述交互输入进行目标定位。

2.根据权利要求1所述的方法，其中，所述第一特征信息包括所述图像中的对象之间的语义特征信息。

3.根据权利要求2所述的方法，其中，获取与图像对应的第一特征信息，包括：
获取图像中的每个对象和至少一个其他对象之间的语义特征信息。

4.根据权利要求3所述的方法，其中，获取图像中的每个对象和至少一个其他对象之间的语义特征信息，包括：
基于图像中各对象的位置信息，获取图像中的每个对象和至少一个其他对象之间的语义特征信息。

5.根据权利要求3或4所述的方法，其中，获取图像中的每个对象和至少一个其他对象之间的语义特征信息，包括：
基于图像中的每个对象和至少一个其他对象确定至少一个候选区域；
获取所述候选区域内的对象的分类特征信息；
获取所述候选区域内的对象之间的区域语义特征信息；
基于所述分类特征信息和所述区域语义特征信息生成图像中的每个对象和至少一个其他对象之间的语义特征信息。

6.根据权利要求5所述的方法，其中，在生成图像中的每个对象和至少一个其他对象之间的语义特征信息之前，还包括：
基于所述分类特征信息和所述区域语义特征信息，对所述分类特征信息和所述区域语义特征信息进行联合修正。

7.根据权利要求5所述的方法，其中，在生成图像中的每个对象和至少一个其他对象之间的语义特征信息之前，还包括：
根据所述候选区域确定参考区域；
获取所述参考区域的区域特征信息；
基于所述分类特征信息、所述区域语义特征信息和所述区域特征信息，对所述分类特征信息、所述区域语义特征信息和所述区域特征信息进行联合修正。

8.根据权利要求5至7中任一项所述的方法，其中，所述候选区域包括所述对象中的一个和所述至少一个其他对象中的一个。

9.根据权利要求2至8中任一项所述的方法，其中，所述第一特征信息还包括下述至少一项：
与所述图像对应的全局视觉特征信息；
与所述图像中的各对象分别对应的视觉...

【专利技术属性】
技术研发人员：张超，李炯旭，王强，
申请(专利权)人：北京三星通信技术研究有限公司，三星电子株式会社，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人