【技术实现步骤摘要】
本专利技术涉及跨模态目标检测,尤其是涉及一种一阶段指称目标检测方法、设备及介质。
技术介绍
1、研究视觉与自然语言的跨模态方向是当前学界热门研究方向之一,将视觉与文本结合的相关任务在近几年在许多方向取得了重大的进展,指称目标检测是其中最重要的任务之一,其通过给定的指称语言文本描述,准确定位视觉图像中相应目标区域。
2、与目标检测任务一样,指称目标检测方法从两阶段转变到一阶段。两阶段方法使用预先训练的对象检测器来提取区域建议,然后通过搜索算法来选择最匹配的区域。然而,这些两阶段方法对提案的质量很敏感,并且计算成本很高。与两阶段方法不同,一阶段方法直接使用卷积神经网络来提取像素级视觉特征图,并去预测目标边界框位置,不需要复杂的图像-文本匹配过程,在速度和准确性方面具有优势。
3、虽然现有方法已取得了显著的进步,但是这些方法将视觉和语言编码分支视为两个相对独立的模块,所有的跨模态融合都是在特征提取完成后进行的,这种早期融合的方式没有充分利用来自两种模态的信息从而限制了视觉和语言编码器的能力。此外,先前的单阶段方法使用预
...【技术保护点】
1.一种一阶段指称目标检测方法,其特征在于,该方法包括:
2.根据权利要求1所述的一阶段指称目标检测方法,其特征在于,所述S1中对输入的句子进行词嵌入,具体为:采用GloVe词嵌入将句子中的每个单词嵌入到设定维的独热向量中。
3.根据权利要求1所述的一阶段指称目标检测方法,其特征在于,所述S2中将词嵌入输入双向长短期记忆网络获取句子的语言特征,对语言特征进行自注意力计算,捕获句子中不同单词或短语间的语义关系,提取编码后的语言特征,具体为:
4.根据权利要求1所述的一阶段指称目标检测方法,其特征在于,所述S2中采用卷积神经网络从预处理
...【技术特征摘要】
1.一种一阶段指称目标检测方法,其特征在于,该方法包括:
2.根据权利要求1所述的一阶段指称目标检测方法,其特征在于,所述s1中对输入的句子进行词嵌入,具体为:采用glove词嵌入将句子中的每个单词嵌入到设定维的独热向量中。
3.根据权利要求1所述的一阶段指称目标检测方法,其特征在于,所述s2中将词嵌入输入双向长短期记忆网络获取句子的语言特征,对语言特征进行自注意力计算,捕获句子中不同单词或短语间的语义关系,提取编码后的语言特征,具体为:
4.根据权利要求1所述的一阶段指称目标检测方法,其特征在于,所述s2中采用卷积神经网络从预处理后的输入图片中提取多尺度的图像特征,具体为:将固定大小后的图片输入至darknet卷积神经网络,取darknet后三个卷积块输出的特征图作为多尺度的图像特征v={vi,v2,v3},其中ci...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。