【技术实现步骤摘要】
基于多模态信息交互的零样本视觉定位方法、装置及设备
[0001]本专利技术涉及视觉定位
,特别涉及一种基于多模态信息交互的零样本视觉定位方法、装置及设备。
技术介绍
[0002]视觉定位是跨模态领域中的的基础任务,目的是找到图片中与查询语句相关的对象,它可以应用到其他许多跨模态任务当中,例如:视觉问答和图像检索,是跨模态领域学者和工作者的研究热点。目前视觉定位的方法可按照阶段分为传统的二阶段方法和最近出现的一阶段方法。二者的区别在于是否有提议框生成这个过程。二阶段方法在前一个阶段会先生成提议框,得到目标框的粗略的位置、大小、前景概率,在后一个阶段的匹配过程进行二次分类、回归得到更为精确的结果;而一阶段方法直接分类回归得到预测的目标框。二阶段方法更精确但更耗时,同时由于使用目标检测器作为预处理步骤来得到提议框和ROI池化特征会局限于检测器的类别中。这在零样本设置下是相当不利的,极有可能在定位新目标的过程中将其划分成背景类,并在模型中将这个错误传递下去。一阶段方法速度快但不如二阶段方法精确。
[0003]零样本定位 ...
【技术保护点】
【技术特征摘要】
1.一种基于多模态信息交互的零样本视觉定位方法,其特征在于,所述方法包括:导入零样本视觉定位数据集,并对所述数据集中的数据进行预处理;获取查询语句文本,并基于预处理后的数据提取所述查询语句文本的文本特征;获取图像,并基于预处理后的数据提取所述图像的视觉特征和位置特征;将所述文本特征和所述视觉特征进行交互,得到多模态的交互特征;将所述位置特征和所述多模态的交互特征进行融合,得到多模态融合特征;根据所述多模态融合特征,分类回归并计算损失函数和准确率。2.根据权利要求1所述的基于多模态信息交互的零样本视觉定位方法,其特征在于,所述对所述数据集中的数据进行预处理包括:将所述数据集中的文本内容转换为张量的形式;将所述数据集中的图像转换成张量的形式,并统一成相同尺寸大小。3.根据权利要求1或2所述的基于多模态信息交互的零样本视觉定位方法,其特征在于,所述获取查询语句文本,并基于预处理后的数据提取所述查询语句文本的文本特征包括:获取查询语句文本;基于预处理后的数据和所述查询语句文本分别提取粗粒度和细粒度的文本特征。4.根据权利要求3所述的基于多模态信息交互的零样本视觉定位方法,其特征在于,所述获取图像,并基于预处理后的数据提取所述图像的视觉特征和位置特征包括:获取图像;基于预处理后的数据和所述图像提取双向多尺度的视觉特征,并生成不同尺度网格;将所述不同尺度网格的中心坐标作为位置特征。5.根据权利要求4所述的基于多模态信息交互的零样本视觉定位方法,其特征在于,所述基于预处理后的数据和所述查询语句文本分别提取粗粒度和细粒度的文本特征包括:获得所述查询语句文本中单词的上下文特征表示和短语的上下文特征表示,将短语的上下文特征表示作为粗粒度的文本特征;计算每个单词的上下文特征表示在所述单词所属短语中的重要程度;选取重要程度高的单词的上下文特征表示作为细粒度的文本特征。6.根据权利要求5所述的基于多模态信息交...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。