一种跨模态检索方法和系统技术方案

技术编号：36705819 阅读：40 留言：0更新日期：2023-03-01 09:27

本发明专利技术公开了一种跨模态检索方法和系统，涉及深度学习的技术领域，包括：获取图文对数据集，构建初始视觉

全部详细技术资料下载

【技术实现步骤摘要】
一种跨模态检索方法和系统

[0001]本专利技术涉及深度学习的
，更具体地，涉及一种跨模态检索方法和系统。

技术介绍

[0002]近年，深度学习领域蓬勃发展，计算机视觉和自然语言处理发展最为迅速。视觉语言预训练技术将计算机视觉和自然语言处理两个领域连通起来共同训练，使得视觉模态和文本模态投影到一个统一的表示空间中，并进行视觉模态和文本模态的对齐。视觉语言模型大大降低了对人工标注数据的要求，它可以从网络爬取的大量图像文本对中学习到视觉模态和文本模态的弱相关联系，最终其零样本分类性能超越了有监督模型的性能。视觉语言预训练模型会受到噪声干扰而影响性能，用于模型训练的训练数据集需要精细化的筛选流程以保证数据集质量。对于大量网络爬取的图文数据集，人工设计的过滤策略无法保证模型不受到噪声干扰；图文数据集中存在的噪声主要来自于文本对图片的不准确描述和不完整描述，利用存在噪声的图文数据集训练出的视觉语言模型，会因陷入噪声而大大降低了模型性能，检索结果不准确；当文本信息或图像信息不完整时，甚至无法获得检索结果。
[0003]现有...

【技术保护点】

【技术特征摘要】
1.一种跨模态检索方法，其特征在于，包括：S1：获取图文对数据集，包含相互对应的图像数据和文本数据；S2：构建初始视觉
‑
语言检索模型，包括视觉编码器、文本编码器和跨模态解码器；S3：对图像数据上的像素块进行随机覆盖，获得掩码块图像；对文本数据进行随机掩码，获得掩码文本数据；S4：将掩码块图像与图像数据输入视觉编码器，获得掩码块图像编码和图像数据编码，并根据掩码块图像编码和图像数据设置图像重建损失函数；S5：将图像数据输入预设视觉概念词汇库，获得视觉概念词；并将视觉概念词和掩码文本数据输入文本编码器，获得视觉概念增强的文本编码；S6：根据文本数据、视觉概念增强的文本编码和图像数据编码设置图像描述损失函数；S7：将图像数据、文本数据和视觉概念增强的文本编码输入跨模态解码器，根据文本数据和视觉概念增强的文本编码生成纯文本数据编码，根据图像数据和视觉概念增强的文本编码生成重建文本数据；S8：根据图像数据编码和纯文本数据编码计算图文对噪声概率，设置噪声自适应对比损失函数；S9：将噪声概率作为替换概率，根据替换概率利用重建文本数据替换对应的文本数据，获得重建图文对数据；S10：根据图像重建损失函数、噪声自适应对比损失函数和图像描述损失函数构建总损失函数，利用重建图文对数据对总损失函数进行优化，获得优化后的视觉
‑
语言检索模型；S11：将待检索的图像数据或文本数据输入训练好的跨模态检索模型中，进行跨模态检索，获得检索结果。2.根据权利要求1所述的跨模态检索方法，其特征在于，所述步骤S4中，图像重建损失函数为：式中，L
IR
为图像重建损失值，N表示图文对数据的数量，x
i
表示第i个图像数据，x
′
i
表示第i个掩码块图像，V
e
(x
′
i
)表示第i个掩码块图像编码，‖*‖表示求二范数。3.根据权利要求1所述的跨模态检索方法，其特征在于，所述步骤S8中，根据图像数据编码和纯文本数据编码计算图文对噪声概率的具体方法为：S8.1：对于每组图文对，计算图像数据相对文本数据的相似度和文本数据相对图像数据的相似度；S8.2：利用所有图文对的图像数据相对文本数据的相似度和文本数据相对图像数据的相似度，计算总图文对比学习损失；S8.3：利用双分量高斯混合模型，根据图文对比损失计算图文对噪声概率。4.根据权利要求3所述的跨模态检索方法，其特征在于，所述步骤S8.1中，计算图像数据相对文本数据的相似度和文本数据相对图像数据的相似度的具体方法为：
式中，表示第i个图像数据相对第j个文本数据的相似度，表示第j个文本数据相对第i个图像数据的相似度。5.根据权利要求4所述的跨模态检索方法，其特征在于，所述步骤S8.2中，计算总图文对比学习损失的具体方法为：对比学习损失的具体方法为：对比学习损失的具体方法为：对比学习损失的具体方法为：式中，B表示该批次输入的图像对数量，表示第i个文本数据相对第i个图像数据的相似度，表示第i个图像数据相对第i个文本数据的相似度；L
ITC
(x
i
,y
i
)表示第i个图文对比损失，L
ITC
表示总图文对比学习损失；表示图像对文本对比学习损失，表示文本对图像对比学习损失。6.根据权利要求5所述的跨模态检索方法，其特征在于，所述步骤S8.3中，根据图文对比损失计算图文对噪声概率的具体方法为：∈
i
＝p(μ
h
)p(L
ITC
(x
i
,y
i
)|μ
h
)/p(L
ITC
(x
i
,y
i
))式中，p(*)表示求取概率分布，θ表示双分量高斯混合模型参数...

【专利技术属性】
技术研发人员：黄润辉，龙衍鑫，梁小丹，
申请(专利权)人：中山大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人