【技术实现步骤摘要】
一种基于多层语义对齐的跨模态检索方法
本专利技术涉及跨模态检索的
,具体涉及一种基于多层语义对齐的跨模态检索方法。
技术介绍
伴随着人工智能在各个领域的广泛应用,数据呈现形式越来越多样化,文本、图像、视频等多模态数据快速增长。不同模态数据呈现底层特征异构,高层语义相关的特点,如同一网页中的文本通过字典向量来表示,而图像则通过视觉特征表示,它们处于完全不同的特征空间,但却表示同一语义。而目前的检索方法通常是单一媒介,即查询和检索结果属于同一模态类型,检索内容单一,受限于查询条件约束。由于多模态数据的内容互相补充,用户借助跨模态检索引擎,提交任意一种模态查询数据获取语义相关其它数据,提高查询效率,改善用户体验。因此,对多模态数据交叉检索具有重要应用价值。怎样在大量多模态数据中寻找所需数据是当前研究热点。主流的跨模态检索方法是构建不同模态数据共同语义空间,在该空间中,将图像和文本异构数据映射相同维度的语义特征,通过语义特征直接度量不同模态数据相似性。其中最常用的是典型相关分析算法(CCA),其将两组异构数据在公共空间 ...
【技术保护点】
1.一种基于多层语义对齐的跨模态检索方法,其特征在于,包括以下步骤:/n步骤1:获取不同模态的数据:文本、图像和视频;/n步骤2:对收集到的不同模态数据进行特征提取,将提取出的相应的文本、图像和视频特征向量,并映射到公共空间;/n步骤3:将得到的文本、图像和视频特征利用自注意力机制为特征向量分配自注意力权重,并根据注意力权重大小自适应地过滤掉无关或关联性较小的区域;/n步骤4:利用自注意力机制加权后的特征向量实现不同模态间的实体对齐、关系对齐;/n步骤5:利用文本的全局加权特征实现多标签预测,实现全局语义对齐;/n步骤6:分别计算关系相似度、实体相似度和全局语义相似度;/n ...
【技术特征摘要】
1.一种基于多层语义对齐的跨模态检索方法,其特征在于,包括以下步骤:
步骤1:获取不同模态的数据:文本、图像和视频;
步骤2:对收集到的不同模态数据进行特征提取,将提取出的相应的文本、图像和视频特征向量,并映射到公共空间;
步骤3:将得到的文本、图像和视频特征利用自注意力机制为特征向量分配自注意力权重,并根据注意力权重大小自适应地过滤掉无关或关联性较小的区域;
步骤4:利用自注意力机制加权后的特征向量实现不同模态间的实体对齐、关系对齐;
步骤5:利用文本的全局加权特征实现多标签预测,实现全局语义对齐;
步骤6:分别计算关系相似度、实体相似度和全局语义相似度;
步骤7:根据得到的关系相似度、实体相似度和全局语义相似度来计算图像和文本整体相似度,并根据整体相似度进行排序,选择排名前n个候选集实例作为最终的查询结果。
2.根据权利要求1所述的一种基于多层语义对齐的跨模态检索方法,其特征在于,步骤2的具体操作步骤包括:
S21:将收集到的N对图像、文本、视频的跨模态数据表示为
S22:提取图像特征:将每幅图像i输入到FasterR-CNN,提取图像区域特征,得到一组图像i的特征向量其中li表示每个候选图像区域,n为候选区域个数,其计算公式为:
li=Wv.fi+bvi∈[1,2......n](1),
其中,Wv是转换矩阵,bv是偏置系数;
S23:提取文本特征:对于文本句子T,通过Bi-GRU网络学习文本上下文特征,将得到的文本语义特征通过one-hot编码,获得每一个词的词向量表示,并通过编码矩阵将词向量嵌入到公共空间,得到文本的语义向量特征表示,其计算公式为:
其中,ej表示单词向量,Wt为Bi-GRU单元参数;
S24:提取视频特征:对于一个视频语义信息VT,利用Bi-GRU网络提取视频中的文本语义信息,利用文本语义特征代替视频提取单词特征,将得到文本语义特征通过one-hot编码,获得每一个词的词向量表示,并通过编码矩阵将单词嵌入到公共空间,得到视频V的语义向量特征表示。
3.根据权利要求1所述的一种基于多层语义对齐的跨模态检索方法,其特征在于,步骤S3的具体操作步骤包括:
S31:对于输入的图像特征利用多层感知机进行计算,获得图像片段的自注意力权值Wi:
其中,Wi是权值矩阵,Qi和Pi为注意力机制参数矩阵,...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。