一种基于深度度量学习的细粒度跨媒体检索方法技术

技术编号:35954833 阅读:87 留言:0更新日期:2022-12-14 10:48
本发明专利技术公开一种基于深度度量学习的细粒度跨媒体检索方法,包括S1.首先,将一组多媒体实例混合输入到同一深度网络中提取特征;S2.通过线性层将不同媒体的特征映射到嵌入空间中进行度量学习;S3.使用跨媒体深度度量学习方法来同时学习细粒度语义相关性和跨媒体语义相关性;本发明专利技术通过线性层将不同的媒体特征直接映射到嵌入空间中进行相似性度量;并且为了有效度量不同媒体特征之间的相似性,采用跨媒体元组度量学习方法来度量不同媒体间的跨媒体相关性,并且采用跨媒体代理度量学习方法来度量各个媒体内的细粒度语义相关性;对比传统的细粒度跨媒体网络结构,具有更低的模型复杂度。杂度。杂度。

【技术实现步骤摘要】
一种基于深度度量学习的细粒度跨媒体检索方法


[0001]本专利技术涉及跨媒体检索
,具体为一种基于深度度量学习的细粒度跨媒体检索方法。

技术介绍

[0002]近些年来,各种细粒度跨媒体检索方法是跨媒体检索领域最常采用的一类方法;跨媒体深度度量学习的研究者们将具有丰富媒体独特信息的特征直接映射到嵌入空间中进行度量学习,同时不需要额外的细粒度语义特征学习网络或者公共空间学习;研究者们把深度网络视为一个黑盒,旨在把网络最后一层softmax层替换成线性层或者非线性层来将不同媒体的特征映射到嵌入空间中进行相似性度量,他们认为仅仅需要在嵌入空间中进行相似性度量就可以解决“媒体鸿沟”问题,而不需要对网络结构进行额外的修改;例如,World Wide Web期刊中Deep adversarial metric learning for cross

modal retrieval的论文中使用对抗度量学习来学习不同媒体数据的相似性,通过优化对抗损失来缩小类内差异、增大类间差异并缩小同一类中不同媒体数据对的差异,这可以有效度量不同媒体之间的差异;然而这类方法是基于粗粒度级别的深度度量学习方法,由于细粒度数据集具有类间方差小、类内方差大的特点,这使得同时度量细粒度差发异和媒体差异比较困难。
[0003]此外,传统的深度度量学习方法都是基于元组的度量学习方法;这些基于元组的深度度量学习方法由于需要对正负样本进行采样,这会导致元组内含有大量的冗余信息并且导致模型训练复杂度达到甚至,其中是训练样本的数量;近年来主流的深度度量学习方法通过为训练数据设置代理来解决基于元组方法的训练复杂度问题,通过为每一个类别设置一个代理,然后计算每个训练数据与代理之间的距离来解决信息冗余问题;然而,这种方法只计算训练数据与所有代理之间的差异,这导致该方法不能有效利用数据与数据之间丰富的语义信息;与此相比,CVPR 2020国际会议中Proxy anchor loss for deep metric learning论文中提出了基于代理锚的深度度量学习方法,他们将每个代理与嵌入空间中的所有数据相关联,可以同时计算数据与代理、数据与数据之间的相关性;细粒度跨媒体检索任务不仅需要计算不同媒体数据到各个类别代理之间的差异以减少类内方差、增大类间方差,还需要计算不同媒体数据与数据之间的差异以减少语义差异。

技术实现思路

[0004]本专利技术的目的在于提供一种基于深度度量学习的细粒度跨媒体检索方法,以解决上述
技术介绍
提出的问题。
[0005]为实现上述目的,本专利技术提供如下技术方案:一种基于深度度量学习的细粒度跨媒体检索方法,包括如下步骤:S1.首先,将一组多媒体实例混合输入到同一深度网络中提取特征;
S11.通过将深度网络的最后一层修改为线性层来将不同的媒体特征映射到嵌入空间中;S12.通过跨媒体深度度量方法计算嵌入空间中数据与代理间的细粒度损失和数据之间的跨媒体损失;S2.通过线性层将不同媒体的特征映射到嵌入空间中进行度量学习;S21.将图像、视频、音频和文本四种不同媒体的特征视为一个整体,对正样本和负样本进行采样,通过拉进正样本并远离负样本,将属于同一细粒度子类别的数据聚集在一起;S22.为了防止模型训练过程中发生拟合,采用L2范数的平方作为距离度量函数,从而来推断出跨媒体元组损失;S23.对跨媒体元组损失进行梯度优化;S3.使用跨媒体深度度量学习方法来同时学习细粒度语义相关性和跨媒体语义相关性;S31.通过度量相同细粒度子类别数据和代理之间的距离来找到该类别的代理点;S32.使用跨媒体代理损失对代理点和每个训练数据进行约束;S33.通过优化跨媒体代理损失促进正样本接近代理点来减小类内差异,促进负样本远离代理点增加类间差异。
[0006]进一步的,在S11中,将图像、视频、音频和文本这四种不同的媒体数据混合输入到网络中进行训练,通过一个统一的深度网络来提取不同媒体数据的特征表示;网络的输入可表示为,其中、、、代表图像、视频、音频、文本;通过将深度网络的最后一层softmax层修改为线性层来将不同的媒体特征映射到嵌入空间中;线性层的输出可以表示为,其中,为嵌入空间的维度,深度度量学习方法为:;其中为当前计算的数据,为正样本,为负样本,为当前计算的代理,为正样本数据集合,为负样本数据集合,为跨媒体元组度量学习函数,为跨媒体代理度量学习函数。
[0007]更进一步的,在S2中,嵌入空间中包含四种不同的媒体数据,每种媒体数据可表示为,表示第个数据的特征向量,表示标签;若当前对第个数据计算跨媒体元组损失,则输入数据为,将嵌入空间中所有与标签相同的数据标记为正样本,并将嵌入空间中所有与标签不同的数据标记为负样本;然后同时度量与正样本的距离
和与负样本之间的距离,跨媒体元组度量学习要求当前计算数据与正样本距离近、与负样本距离远,可表示为:;其中,表示正样本对和负样本对之间的边距。
[0008]进一步的,采用L2范数的平方来作为距离度量函数,跨媒体元组损失可以定义为:;该损失梯度优化过程如下:;;;通过学习每个数据与数据之间丰富的语义信息可以使接近,并使远离。
[0009]更进一步的,在S31中,对于嵌入空间中的每一个数据,确定每个类别代理的特征向量表示,通过度量相同细粒度子类别数据和代理之间的距离来找到该类别最合适的代理点,可表示为:;其中使用L2范数的平方作来度量代理点和数据之间的距离,该距离度量可表示为:。
[0010]进一步的,在S32中,将嵌入空间中的所有数据分为正样本集合和负样本集合,使用跨媒体代理损失来约束代理点和每个训练数据,损失如下:
;其中表示当前计算的代理点,表示所有代理的集合,表示所有正代理的集合,表示人工定义的参数,表示细粒度子类别之间的边距,表示余弦相似度。
[0011]更进一步的,在S33中,跨媒体代理损失梯度更新过程如下:;;其中。
[0012]与现有技术相比,本专利技术的有益效果是:本申请通过线性层将不同的媒体特征直接映射到嵌入空间中进行相似性度量;并且为了有效度量不同媒体特征之间的相似性,采用跨媒体元组度量学习方法来度量不同媒体间的跨媒体相关性,并且采用跨媒体代理度量学习方法来度量各个媒体内的细粒度语义相关性;对比传统的细粒度跨媒体网络结构,本专利技术不需要构建复杂的跨媒体学习网络和细粒度语义特征学习网络,具有更低的模型复杂度。
附图说明
[0013]图1为本专利技术基于深度度量学习的细粒度跨媒体检索网络结构示意图;图2为本专利技术基于深度度量学习的细粒度跨媒体检索方法流程图。
具体实施方式
[0014]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0015]请参照图1和图2所示,本专利技术为一种基于深度度量学习的细粒度本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度度量学习的细粒度跨媒体检索方法,其特征在于,包括如下步骤:S1.首先,将一组多媒体实例混合输入到同一深度网络中提取特征;S11.通过将深度网络的最后一层修改为线性层来将不同的媒体特征映射到嵌入空间中;S12.通过跨媒体深度度量方法计算嵌入空间中数据与代理间的细粒度损失和数据之间的跨媒体损失;S2.通过线性层将不同媒体的特征映射到嵌入空间中进行度量学习;S21.将图像、视频、音频和文本四种不同媒体的特征视为一个整体,对正样本和负样本进行采样,通过拉进正样本并远离负样本,将属于同一细粒度子类别的数据聚集在一起;S22.为了防止模型训练过程中发生拟合,采用L2范数的平方作为距离度量函数,从而来推断出跨媒体元组损失;S23.对跨媒体元组损失进行梯度优化;S3.使用跨媒体深度度量学习方法来同时学习细粒度语义相关性和跨媒体语义相关性;S31.通过度量相同细粒度子类别数据和代理之间的距离来找到该类别的代理点;S32.使用跨媒体代理损失对代理点和每个训练数据进行约束;S33.通过优化跨媒体代理损失促进正样本接近代理点来减小类内差异,促进负样本远离代理点增加类间差异。2.根据权利要求1所述的一种基于深度度量学习的细粒度跨媒体检索方法,其特征在于,在S11中,通过将深度网络的最后一层softmax层修改为线性层来将不同的媒体特征映射到嵌入空间中;线性层的输出表示为,其中 d为嵌入空间的维度,度量学习方法为:;其中a为当前计算的数据,p为正样本,n为负样本,c为当前计算的代理,为正样本数据集合,为负样本数据集合,为跨媒体元组度量学习函数,为跨媒体代理度量学习函数。3.根据权利要求2所述的一种基于深度度量学习的细粒...

【专利技术属性】
技术研发人员:姚亚洲黄丹沈复民孙泽人申恒涛
申请(专利权)人:南京码极客科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1