【技术实现步骤摘要】
一种基于文本树局部匹配的图文跨模态检索方法及系统
[0001]本专利技术涉及图文匹配领域,尤其涉及一种基于文本树局部匹配的图文跨模态检索方法及系统。
技术介绍
[0002]现有跨模态检索对于数据集分为局部和整体两种研究思路。全局对应关系首先将图像和文本表示为特征向量,然后将它们投影到一个经过排序损失优化的公共空间中;局部对应关系集中在学习显著对象的对应关系上。对于数据集中的图片,特征提取一般直接应用ResNet,fast
‑
RCNN等卷积神经网络,对于对应的文本,应用GRU等卷积神经网络生成嵌入向量,之后两者共同放入Transformer进行相似度的计算,得到训练后的模型。使用时输入要检索的图片或文本,可得到最匹配的文本或图片。在局部对齐方面,现在应用较多的注意力机制,将图片与文本矩阵做加权和,来衡量两着的注意力分数,以此来判定二者是否对齐。
[0003]图片和文本在特征提取之后,直接投射到公共空间,由于模态信息的差异,二者的相似度计算效果较差,缺乏对图像和文本之间的细粒度相互作用的理解,局部的匹配 ...
【技术保护点】
【技术特征摘要】
1.一种基于文本树局部匹配的图文跨模态检索方法,其特征在于,包括以下步骤:获取数据集并对数据集进行预处理和划分,得到训练集;将训练集中的图片和文本分别输入对应网络进行特征提取,得到图片特征和文本特征;根据文本特征生成文本树;根据文本树和图片特征进行图文对相似度计算并反向传播训练网络,得到跨模态检索模型;获取待测数据并输入至跨模态检索模型,得到检索结果。2.根据权利要求1所述一种基于文本树局部匹配的图文跨模态检索方法,其特征在于,所述获取数据集并对数据集进行预处理和划分,得到训练集这一步骤,其具体包括:获取数据集并将数据集中的图片和文本建立对应关系,得到图文对应关系;根据图文对应关系生成字典数据;将字典数据按照预设比例划分,得到训练集和测试集。3.根据权利要求2所述一种基于文本树局部匹配的图文跨模态检索方法,其特征在于,所述将训练集中的图片和文本分别输入对应网络进行特征提取,得到图片特征和文本特征这一步骤,其具体包括:将训练集中的图片切片并输入至线性网络,得到图片特征;将训练集中的文本进行编码并输入至卷积神经网络生成嵌入向量,得到文本特征。4.根据权利要求3所述一种基于文本树局部匹配的图文跨模态检索方法,其特征在于,所述根据文本特征生成文本树这一步骤,其具体包括:将文本特征输入至前馈神经网络生成初步输出分数;将初步输出分数进行归一化采样并计算相邻两个分量的L2范数和;根据相邻两个分量的L2范数和对每个文本特征进行合并,迭代生成文本树。5.根据权利要求4所述一种基于文本树局部匹配的图文跨模态检索方法,其特征在于,所述根据相邻两个分量的L2范数和对每...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。