基于图像-文本重要性一致的跨模态检索模型优化方法技术

技术编号:35152438 阅读:30 留言:0更新日期:2022-10-05 10:31
本发明专利技术公开了基于图像

【技术实现步骤摘要】
基于图像

文本重要性一致的跨模态检索模型优化方法


[0001]本专利技术涉及图文检索领域,特别涉及一种基于图像

文本重要性一致的跨模态检索模型优化方法。

技术介绍

[0002]跨模态图文检索,作为跨模态表示学习的重要下游任务,目标是构建图像和文本的双向检索过程,即给定某个模态的查询样本,检索出语义相似的对方模态的样本。在现有技术中,是预先训练一个跨模态检索模型,将图像和文本数据嵌入到一个特征空间中,并计算二者的相似性,但是这种工作仅探索了两个模态的粗粒度对齐,并没有挖掘出图像

文本对中的细粒度语义信息,模型的检索性能不高。因此,现有技术还有待改进和提高。

技术实现思路

[0003]针对现有技术的上述缺陷,本专利技术提供一种基于图像

文本重要性一致的跨模态检索模型优化方法,旨在解决现有技术中跨模态图文建模模型性能不高的问题。
[0004]为了解决上述技术问题,本专利技术所采用的技术方案如下:
[0005]本专利技术的第一方面,提供一种基于图像

文本重要性一致的跨模态检索模型优化方法,所述方法包括:
[0006]获取初始跨模态检索模型,所述初始跨模态检索模型中包括目标自注意力模块;
[0007]在训练集中选取一个目标批次,所述目标批次中包括至少一个第一图文对,所述第一图文对中包括互相匹配的第一样本图像和第一样本文本,将所述第一样本图像对应的图像特征集和所述第一样本文本对应的文本特征集的连接特征输入至目标自注意力模块中,其中,所述图像特征集中包括多个所述第一样本图像的区域对应的特征,所述文本特征集中包括多个所述第一样本文本中的词对应的特征;
[0008]获取所述目标自注意力模块中的自注意力矩阵,所述自注意力矩阵基于所述目标自注意力模块中的查询向量和键向量得到,根据所述图像特征集中的特征数量和所述文本特征集中的特征数量对所述自注意力矩阵进行分割,得到四个子矩阵,分别为第一子矩阵、第二子矩阵、第三子矩阵和第四子矩阵,其中,所述第一子矩阵的尺寸为N
V
*N
V
,所述第二子矩阵的尺寸为N
V
*N
L
,所述第三子矩阵的尺寸为N
L
*N
V
,所述第四子矩阵的尺寸为N
L
*N
L
,N
V
为所述图像特征集中的特征数量,N
L
为所述文本特征集中的特征数量;
[0009]根据所述第一子矩阵和所述第三子矩阵获取所述第一样本图像对应的第一模态内语义重要性分布和第一模态间语义重要性分布,根据所述第二子矩阵和所述第四子矩阵所述第一样本文本对应的第二模态间语义重要性分布和第二模态内语义重要性分布;
[0010]根据所述第一模态内语义重要性分布和所述第一模态间语义重要性分布之间的一致性、以及所述第二模态内语义重要性分布和所述第二模态间语义重要性分布之间的一致性确定训练损失,根据所述训练损失优化所述初始跨模态检索模型的参数。
[0011]所述的基于图像

文本重要性一致的跨模态检索模型优化方法,其中,所述初始跨
模态检索模型为经过预训练的模型。
[0012]所述的基于图像

文本重要性一致的跨模态检索模型优化方法,其中,所述图像特征集中的特征对应的图像区域为对所述第一样本图像进行目标检测后得到的包括目标的区域。
[0013]所述的基于图像

文本重要性一致的跨模态检索模型优化方法,其中,所述根据所述训练损失更新所述初始跨模态检索模型的参数之后,包括:
[0014]重复执行所述在训练集中选取目标批次的步骤,直至所述初始跨模态检索模型的参数收敛。
[0015]所述的基于图像

文本重要性一致的跨模态检索模型优化方法,其中,所述根据所述第一子矩阵和所述第三子矩阵获取所述第一样本图像对应的第一模态内语义重要性分布和第一模态间语义重要性分布,包括:
[0016]对所述第一子矩阵的每一列上的元素均执行求和操作,得到第一模态内语义重要性分数,对各个所述第一模态内语义重要性分数进行归一化操作,得到所述第一模态内语义重要性分布;
[0017]对所述第三子矩阵的每一列上的元素均执行求和操作,得到第一模态间语义重要性分数,对各个所述第一模态间语义重要性分数进行归一化操作,得到所述第一模态间语义重要性分布。
[0018]所述的基于图像

文本重要性一致的跨模态检索模型优化方法,其中,所述根据所述第二子矩阵和所述第四子矩阵所述第一样本文本对应的第二模态间语义重要性分布和第二模态内语义重要性分布,包括:
[0019]对所述第二子矩阵的每一列上的元素均执行求和操作,得到第二模态间语义重要性分数,对各个所述第二模态间语义重要性分数进行归一化操作,得到所述第二模态间语义重要性分布;
[0020]对所述第四子矩阵的每一列上的元素均执行求和操作,得到第二模态内语义重要性分数,对各个所述第二模态内语义重要性分数进行归一化操作,得到所述第二模态内语义重要性分布。
[0021]所述的基于图像

文本重要性一致的跨模态检索模型优化方法,其中,所述目标批次中还包括至少一个第二图文对,所述第二图文对包括互相不匹配的第二样本图像和第二样本文本,所述根据所述第一模态内语义重要性分布和所述第一模态间语义重要性分布之间的一致性、以及所述第二模态内语义重要性分布和所述第二模态间语义重要性分布之间的一致性确定训练损失,包括:
[0022]根据所述第一模态内语义重要性分布和所述第一模态间语义重要性分布之间的相对熵确定第一损失;
[0023]根据所述第二模态内语义重要性分布和所述第二模态间语义重要性分布之间的相对熵确定第二损失;
[0024]获取优化损失,其中,所述优化损失基于所述至少一个第一图文对对应的所述第一损失和所述第二损失得到;
[0025]获取所述初始跨模态检索模型输出的所述目标批次中的每个图文对的预测相似度,根据所述目标批次中的每个图文对对应的相似度差值获取第三损失,其中,图文对对应
的所述相似度差值由该图文对中包括的图像和文本匹配关系、以及该图文对对应的所述预测相似度构建;
[0026]根据所述优化损失和所述第三损失确定所述训练损失。
[0027]本专利技术的第二方面,提供一种基于图像

文本重要性一致的跨模态检索模型优化装置,所述装置包括:
[0028]模型获取模块,用于获取初始跨模态检索模型,所述初始跨模态检索模型中包括目标自注意力模块;
[0029]特征获取模块,用于在训练集中选取一个图文对,所述图文对中包括第一样本图像和第一样本文本,将所述第一样本图像对应的图像特征集和所述第一样本文本对应的文本特征集的连接特征输入至本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于图像

文本重要性一致的跨模态检索模型优化方法,其特征在于,所述方法包括:获取初始跨模态检索模型,所述初始跨模态检索模型中包括目标自注意力模块;在训练集中选取目标批次,所述目标批次中包括至少一个第一图文对,所述第一图文对中包括互相匹配的第一样本图像和第一样本文本,将所述第一样本图像对应的图像特征集和所述第一样本文本对应的文本特征集的连接特征输入至所述目标自注意力模块中,其中,所述图像特征集中包括多个所述第一样本图像的区域对应的特征,所述文本特征集中包括多个所述第一样本文本中的词对应的特征;获取所述目标自注意力模块中的自注意力矩阵,所述自注意力矩阵基于所述目标自注意力模块中的查询向量和键向量得到,根据所述图像特征集中的特征数量和所述文本特征集中的特征数量对所述自注意力矩阵进行分割,得到四个子矩阵,分别为第一子矩阵、第二子矩阵、第三子矩阵和第四子矩阵,其中,所述第一子矩阵的尺寸为N
V
*N
V
,所述第二子矩阵的尺寸为N
V
*N
L
,所述第三子矩阵的尺寸为N
L
*N
V
,所述第四子矩阵的尺寸为N
L
*N
L
,N
V
为所述图像特征集中的特征数量,N
L
为所述文本特征集中的特征数量;根据所述第一子矩阵和所述第三子矩阵获取所述第一样本图像对应的第一模态内语义重要性分布和第一模态间语义重要性分布,根据所述第二子矩阵和所述第四子矩阵获取所述第一样本文本对应的第二模态间语义重要性分布和第二模态内语义重要性分布;根据所述第一模态内语义重要性分布和所述第一模态间语义重要性分布之间的一致性、以及所述第二模态内语义重要性分布和所述第二模态间语义重要性分布之间的一致性确定训练损失,根据所述训练损失优化所述初始跨模态检索模型的参数。2.根据权利要求1所述的基于图像

文本重要性一致的跨模态检索模型优化方法,其特征在于,所述初始跨模态检索模型为经过预训练的模型。3.根据权利要求1所述的基于图像

文本重要性一致的跨模态检索模型优化方法,其特征在于,所述图像特征集中的特征对应的图像区域为对所述第一样本图像进行目标检测后得到的包括目标的区域。4.根据权利要求1所述的基于图像

文本重要性一致的跨模态检索模型优化方法,其特征在于,所述根据所述训练损失更新所述初始跨模态检索模型的参数之后,包括:重复执行所述在训练集中选取选取目标批次的步骤,直至所述初始跨模态检索模型的参数收敛。5.根据权利要求1所述的基于图像

文本重要性一致的跨模态检索模型优化方法,其特征在于,所述根据所述第一子矩阵和所述第三子矩阵获取所述第一样本图像对应的第一模态内语义重要性分布和第一模态间语义重要性分布,包括:对所述第一子矩阵的每一列上的元素均执行求和操作,得到第一模态内语义重要性分数,对各个所述第一模态内语义重要性分数进行归一化操作,得到所述第一模态内语义重要性分布;对所述第三子矩阵的每一列上的元素均执行求和操作,得到第一模态间语义重要性分数,对各个所述第一模态间语义重要性分数进行归一化操作,得到所述第一模态间语义重要性分布。6.根据权利要求1所述的基于图像

文本重要性一致的跨模态检索模型优化方法,其特
征在于,所述根据所述第二子矩阵和所述第四子矩阵所述第一样本文本对应的第二模态间语义重要性分布和第二模态内语义重要性分布,包括:对所述第二子矩阵的每一列上的元素均执行求和操作,得到第二模态间语义重要性分数,对各个所述第二模态间语义重要性分数进行归一化操作,得到所述第二模态间语义重要性分布;对所述第四子矩阵的每一列上的元素均执行求和操作,得到第二模态内语义重要性分数,对各个所述第二模态内语义重要性分数进行归一...

【专利技术属性】
技术研发人员:陈芳林刘泽军裴文杰卢光明
申请(专利权)人:哈尔滨工业大学深圳
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1