当前位置: 首页 > 专利查询>中山大学专利>正文

一种跨模态检索方法和系统技术方案

技术编号:36705819 阅读:23 留言:0更新日期:2023-03-01 09:27
本发明专利技术公开了一种跨模态检索方法和系统,涉及深度学习的技术领域,包括:获取图文对数据集,构建初始视觉

【技术实现步骤摘要】
一种跨模态检索方法和系统


[0001]本专利技术涉及深度学习的
,更具体地,涉及一种跨模态检索方法和系统。

技术介绍

[0002]近年,深度学习领域蓬勃发展,计算机视觉和自然语言处理发展最为迅速。视觉语言预训练技术将计算机视觉和自然语言处理两个领域连通起来共同训练,使得视觉模态和文本模态投影到一个统一的表示空间中,并进行视觉模态和文本模态的对齐。视觉语言模型大大降低了对人工标注数据的要求,它可以从网络爬取的大量图像文本对中学习到视觉模态和文本模态的弱相关联系,最终其零样本分类性能超越了有监督模型的性能。视觉语言预训练模型会受到噪声干扰而影响性能,用于模型训练的训练数据集需要精细化的筛选流程以保证数据集质量。对于大量网络爬取的图文数据集,人工设计的过滤策略无法保证模型不受到噪声干扰;图文数据集中存在的噪声主要来自于文本对图片的不准确描述和不完整描述,利用存在噪声的图文数据集训练出的视觉语言模型,会因陷入噪声而大大降低了模型性能,检索结果不准确;当文本信息或图像信息不完整时,甚至无法获得检索结果。
[0003]现有技术公开了一种基于语义增强的跨模态检索方法及装置、存储介质和终端,其中方法包括构建跨模态检索模型,并基于图文检索数据训练集对跨模态检索模型进行训练以获取训练后的跨模态检索模型;确定目标查询数据和目标模态数据集,基于训练后的跨模态检索模型获取目标查询数据与每个目标模态数据之间的整体语义相似度;在目标模态数据集中依据整体语义相似度从大到小的顺序选取预设个数的整体语义相似度对应的目标模态数据,并确定检索结果。该申请对人工标注数据的要求高,需要大量完整图文数据进行训练,容易受到噪声干扰;并且对于不完整的文本数据,无法准确检索到图像数据。

技术实现思路

[0004]本专利技术为克服上述现有技术跨模态检索时,检索结果不准确的缺陷,提供一种跨模态检索方法和系统,能够获得准确的跨模态检索结果,并且实现对不完整文本对数据的补全与填充。
[0005]为解决上述技术问题,本专利技术的技术方案如下:
[0006]本专利技术提供了一种跨模态检索方法,包括:
[0007]S1:获取图文对数据集,包含相互对应的图像数据和文本数据;
[0008]S2:构建初始视觉

语言检索模型,包括视觉编码器、文本编码器和跨模态解码器;
[0009]S3:对图像数据上的像素块进行随机覆盖,获得掩码块图像;对文本数据进行随机掩码,获得掩码文本数据;
[0010]S4:将掩码块图像与图像数据输入视觉编码器,获得掩码块图像编码和图像数据编码,并根据掩码块图像编码和图像数据设置图像重建损失函数;
[0011]S5:将图像数据输入预设视觉概念词汇库,获得视觉概念词;并将视觉概念词和掩码文本数据输入文本编码器,获得视觉概念增强的文本编码;
[0012]S6:根据文本数据、视觉概念增强的文本编码和图像数据编码设置图像描述损失函数;
[0013]S7:将图像数据、文本数据和视觉概念增强的文本编码输入跨模态解码器,根据文本数据和视觉概念增强的文本编码生成纯文本数据编码,根据图像数据和视觉概念增强的文本编码生成重建文本数据;
[0014]S8:根据图像数据编码和纯文本数据编码计算图文对噪声概率,设置噪声自适应对比损失函数;
[0015]S9:将噪声概率作为替换概率,根据替换概率利用重建文本数据替换对应的文本数据,获得重建图文对数据;
[0016]S10:根据图像重建损失函数、噪声自适应对比损失函数和图像描述损失函数构建总损失函数,利用重建图文对数据对总损失函数进行优化,获得优化后的视觉

语言检索模型;
[0017]S11:将待检索的图像数据或文本数据输入训练好的跨模态检索模型中,进行跨模态检索,获得检索结果。
[0018]本专利技术获取图文对数据集,相互对应的图像数据和文本数据间存在噪声影响或文本不完整的缺陷;构建初始视觉

语言检索模型,包含一个视觉编码器,用于降低计算成本的同时保持高质量的视觉特征表示;一个文本编码器,用于对文本数据和辅助的视觉概念词进行编码;一个跨模态解码器,用于合成语义一致的重建文本数据;根据图像重建损失函数、噪声自适应对比损失函数和图像描述损失函数构建总损失函数,对初始视觉

语言检索模型进行优化,获得优化后的视觉

语言检索模型,利用图文对噪声概率进行噪声自适应正则化以避免对噪声的严重偏差,增强检索模型的鲁棒性,可以有效避免检索模型对包含噪声的图文对数据集的过拟合,生成的重建文本数据包含丰富详细的图像描述,提高了检索结果的准确性,还可以对文本数据不完整的图文对数据集进行补全。
[0019]优选地,所述步骤S4中,图像重建损失函数为:
[0020][0021]式中,L
IR
为图像重建损失值,N表示图文对数据的数量,x
i
表示第i个图像数据,x

i
表示第i个掩码块图像,V
e
(x

i
)表示第i个掩码块图像编码,‖*‖表示求二范数。
[0022]优选地,所述步骤S8中,根据图像数据编码和纯文本数据编码计算图文对噪声概率的具体方法为:
[0023]S8.1:对于每组图文对,计算图像数据相对文本数据的相似度和文本数据相对图像数据的相似度;
[0024]S8.2:利用所有图文对的图像数据相对文本数据的相似度和文本数据相对图像数据的相似度,计算总图文对比学习损失;
[0025]S8.3:利用双分量高斯混合模型,根据图文对比损失计算图文对噪声概率。
[0026]优选地,所述步骤S8.1中,计算图像数据相对文本数据的相似度和文本数据相对图像数据的相似度的具体方法为:
[0027][0028]式中,表示第i个图像数据相对第j个文本数据的相似度,表示第j个文本数据相对第i个图像数据的相似度。
[0029]优选地,所述步骤S8.2中,计算总图文对比学习损失函数的具体方法为:
[0030][0031][0032][0033][0034]式中,B表示该批次输入的图像对数量,表示第i个文本数据相对第i个图像数据的相似度,表示第i个图像数据相对第i个文本数据的相似度;L
ITC
(x
i
,y
i
)表示第i个图文对比损失,L
ITC
表示总图文对比学习损失;表示图像对文本对比学习损失,表示文本对图像对比学习损失。
[0035]优选地,所述步骤S8.3中,根据图文对比损失计算图文对噪声概率的具体方法为:
[0036][0037]∈
i
=p(μ
h
)p(L
ITC
(x
i
,y
i
)|μ
h
)/p(L
ITC
(x本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种跨模态检索方法,其特征在于,包括:S1:获取图文对数据集,包含相互对应的图像数据和文本数据;S2:构建初始视觉

语言检索模型,包括视觉编码器、文本编码器和跨模态解码器;S3:对图像数据上的像素块进行随机覆盖,获得掩码块图像;对文本数据进行随机掩码,获得掩码文本数据;S4:将掩码块图像与图像数据输入视觉编码器,获得掩码块图像编码和图像数据编码,并根据掩码块图像编码和图像数据设置图像重建损失函数;S5:将图像数据输入预设视觉概念词汇库,获得视觉概念词;并将视觉概念词和掩码文本数据输入文本编码器,获得视觉概念增强的文本编码;S6:根据文本数据、视觉概念增强的文本编码和图像数据编码设置图像描述损失函数;S7:将图像数据、文本数据和视觉概念增强的文本编码输入跨模态解码器,根据文本数据和视觉概念增强的文本编码生成纯文本数据编码,根据图像数据和视觉概念增强的文本编码生成重建文本数据;S8:根据图像数据编码和纯文本数据编码计算图文对噪声概率,设置噪声自适应对比损失函数;S9:将噪声概率作为替换概率,根据替换概率利用重建文本数据替换对应的文本数据,获得重建图文对数据;S10:根据图像重建损失函数、噪声自适应对比损失函数和图像描述损失函数构建总损失函数,利用重建图文对数据对总损失函数进行优化,获得优化后的视觉

语言检索模型;S11:将待检索的图像数据或文本数据输入训练好的跨模态检索模型中,进行跨模态检索,获得检索结果。2.根据权利要求1所述的跨模态检索方法,其特征在于,所述步骤S4中,图像重建损失函数为:式中,L
IR
为图像重建损失值,N表示图文对数据的数量,x
i
表示第i个图像数据,x

i
表示第i个掩码块图像,V
e
(x

i
)表示第i个掩码块图像编码,‖*‖表示求二范数。3.根据权利要求1所述的跨模态检索方法,其特征在于,所述步骤S8中,根据图像数据编码和纯文本数据编码计算图文对噪声概率的具体方法为:S8.1:对于每组图文对,计算图像数据相对文本数据的相似度和文本数据相对图像数据的相似度;S8.2:利用所有图文对的图像数据相对文本数据的相似度和文本数据相对图像数据的相似度,计算总图文对比学习损失;S8.3:利用双分量高斯混合模型,根据图文对比损失计算图文对噪声概率。4.根据权利要求3所述的跨模态检索方法,其特征在于,所述步骤S8.1中,计算图像数据相对文本数据的相似度和文本数据相对图像数据的相似度的具体方法为:
式中,表示第i个图像数据相对第j个文本数据的相似度,表示第j个文本数据相对第i个图像数据的相似度。5.根据权利要求4所述的跨模态检索方法,其特征在于,所述步骤S8.2中,计算总图文对比学习损失的具体方法为:对比学习损失的具体方法为:对比学习损失的具体方法为:对比学习损失的具体方法为:式中,B表示该批次输入的图像对数量,表示第i个文本数据相对第i个图像数据的相似度,表示第i个图像数据相对第i个文本数据的相似度;L
ITC
(x
i
,y
i
)表示第i个图文对比损失,L
ITC
表示总图文对比学习损失;表示图像对文本对比学习损失,表示文本对图像对比学习损失。6.根据权利要求5所述的跨模态检索方法,其特征在于,所述步骤S8.3中,根据图文对比损失计算图文对噪声概率的具体方法为:∈
i
=p(μ
h
)p(L
ITC
(x
i
,y
i
)|μ
h
)/p(L
ITC
(x
i
,y
i
))式中,p(*)表示求取概率分布,θ表示双分量高斯混合模型参数...

【专利技术属性】
技术研发人员:黄润辉龙衍鑫梁小丹
申请(专利权)人:中山大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1