一种基于深度度量学习的细粒度跨媒体检索方法技术

技术编号：35954833 阅读：87 留言：0更新日期：2022-12-14 10:48

本发明专利技术公开一种基于深度度量学习的细粒度跨媒体检索方法，包括S1.首先，将一组多媒体实例混合输入到同一深度网络中提取特征；S2.通过线性层将不同媒体的特征映射到嵌入空间中进行度量学习；S3.使用跨媒体深度度量学习方法来同时学习细粒度语义相关性和跨媒体语义相关性；本发明专利技术通过线性层将不同的媒体特征直接映射到嵌入空间中进行相似性度量；并且为了有效度量不同媒体特征之间的相似性，采用跨媒体元组度量学习方法来度量不同媒体间的跨媒体相关性，并且采用跨媒体代理度量学习方法来度量各个媒体内的细粒度语义相关性；对比传统的细粒度跨媒体网络结构，具有更低的模型复杂度。杂度。杂度。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于深度度量学习的细粒度跨媒体检索方法

[0001]本专利技术涉及跨媒体检索
，具体为一种基于深度度量学习的细粒度跨媒体检索方法。

技术介绍

[0002]近些年来，各种细粒度跨媒体检索方法是跨媒体检索领域最常采用的一类方法；跨媒体深度度量学习的研究者们将具有丰富媒体独特信息的特征直接映射到嵌入空间中进行度量学习，同时不需要额外的细粒度语义特征学习网络或者公共空间学习；研究者们把深度网络视为一个黑盒，旨在把网络最后一层softmax层替换成线性层或者非线性层来将不同媒体的特征映射到嵌入空间中进行相似性度量，他们认为仅仅需要在嵌入空间中进行相似性度量就可以解决“媒体鸿沟”问题，而不需要对网络结构进行额外的修改；例如，World Wide Web期刊中Deep adversarial metric learning for cross
‑
modal retrieval的论文中使用对抗度量学习来学习不同媒体数据的相似性，通过优化对抗损失来缩小类内差异、增大类间差异并缩小同一类中不同媒体数据对的差异，这可以有效度量不同媒体之间的差异；然而这类方法是基于粗粒度级别的深度度量学习方法，由于细粒度数据集具有类间方差小、类内方差大的特点，这使得同时度量细粒度差发异和媒体差异比较困难。
[0003]此外，传统的深度度量学习方法都是基于元组的度量学习方法；这些基于元组的深度度量学习方法由于需要对正负样本进行采样，这会导致元组内含有大量的冗余信息并且导致模型训练复杂度达到甚至，其中是训练样本的数量；近年来...

【技术保护点】

【技术特征摘要】
1.一种基于深度度量学习的细粒度跨媒体检索方法，其特征在于，包括如下步骤：S1.首先，将一组多媒体实例混合输入到同一深度网络中提取特征；S11.通过将深度网络的最后一层修改为线性层来将不同的媒体特征映射到嵌入空间中；S12.通过跨媒体深度度量方法计算嵌入空间中数据与代理间的细粒度损失和数据之间的跨媒体损失；S2.通过线性层将不同媒体的特征映射到嵌入空间中进行度量学习；S21.将图像、视频、音频和文本四种不同媒体的特征视为一个整体，对正样本和负样本进行采样，通过拉进正样本并远离负样本，将属于同一细粒度子类别的数据聚集在一起；S22.为了防止模型训练过程中发生拟合，采用L2范数的平方作为距离度量函数，从而来推断出跨媒体元组损失；S23.对跨媒体元组损失进行梯度优化；S3.使用跨媒体深度度量学习方法来同时学习细粒度语义相关性和跨媒体语义相关性；S31.通过度量相同细粒度子类别数据和代理之间的距离来找到该类别的代理点；S32.使用跨媒体代理损失对代理点和每个训练数据进行约束；S33.通过优化跨媒体代理损失促进正样本接近代理点来减小类内差异，促进负样本远离代理点增加类间差异。2.根据权利要求1所述的一种基于深度度量学习的细粒度跨媒体检索方法，其特征在于，在S11中，通过将深度网络的最后一层softmax层修改为线性层来将不同的媒体特征映射到嵌入空间中；线性层的输出表示为，其中 d为嵌入空间的维度，度量学习方法为：；其中a为当前计算的数据，p为正样本，n为负样本，c为当前计算的代理，为正样本数据集合，为负样本数据集合，为跨媒体元组度量学习函数，为跨媒体代理度量学习函数。3.根据权利要求2所述的一种基于深度度量学习的细粒...

【专利技术属性】
技术研发人员：姚亚洲，黄丹，沈复民，孙泽人，申恒涛，
申请(专利权)人：南京码极客科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人