一种基于局部自注意力的细粒度跨媒体检索方法技术

技术编号:35926708 阅读:32 留言:0更新日期:2022-12-10 11:21
本发明专利技术公开一种基于局部自注意力的细粒度跨媒体检索方法,包括公共空间学习、损失函数和可学习的位置编码,本发明专利技术中的方法使用注意力机制来学习特征映射矩阵,从而将不同的媒体数据映射到同一个公共空间中进行相似性度;由于自注意力机制可以学习特征之间有意义的相互依赖关系,因此本发明专利技术使用它来计算局部区域内每个特征之间的相似性从而生成特征映射矩阵,可以通过端到端的方式进行训练,非常灵活,同时与传统自注意力网络相比,本发明专利技术提出的方法在添加位置编码后可以像卷积层一样学习特征的空间信息。习特征的空间信息。习特征的空间信息。

【技术实现步骤摘要】
一种基于局部自注意力的细粒度跨媒体检索方法


[0001]本专利技术涉及跨媒体检索
,具体为一种基于局部自注意力的细粒度跨媒体检索方法。

技术介绍

[0002]近年来,跨媒体公共空间学习的研究者们通过修改网络结构来同时学习细粒度语义特征和跨媒体相关性。这些研究者们认为共享相同语义的数据具有潜在的相关性,然后将不同的媒体数据通过网络映射到同一个公共空间中来学习不同媒体数据之间的相似性和细粒度语义特征。例如,在2019年10月的the 27th ACM International Conference on Multimedia会议的“A new benchmark and approach for fine

grained cross

media retrieval”论文中,使用统一的Resnet网络模型同时学习图像、文本、音频、视频数据的通用表示形式,而不需要对不同媒体数据进行特殊处理。尽管卷积网络可以快速学习特征之间的空间关系,但是它不能有效学习跨多种媒体数据的公共特征空间。其他研究者们分别使用模态对抗混合传输网络、序列建模和跨媒体散列函数来学习跨媒体相关性。然而,这些复杂的模型通常会导致大量的内存和计算负担。
[0003]Transformer的兴起极大的推动了自然语言处理的发展,这要归因于注意力机制可以很好地处理特征之间的长距离依赖关系。特别是自注意力机制,通过测量序列中两个单词之间的注意力得分来计算相似性。受自注意力机制的启发,研究者们将其用于各种视觉任务来学习特征之间有意义的相互依赖关系。其中,在2019年的International Conference on Computer Vision会议的“Local relation networks for image recognition”论文中,证明自注意力算法可以作为图像识别的建模方法,这为研究自注意力模型、卷积模型、递归模型之间的差异性和互补性提供了积极的发展前景。

技术实现思路

[0004]本专利技术的目的在于提供一种基于局部自注意力的细粒度跨媒体检索方法,以解决上述
技术介绍
提出的问题。
[0005]为实现上述目的,本专利技术提供如下技术方案:一种基于局部自注意力的细粒度跨媒体检索方法,包括公共空间学习、损失函数和可学习的位置编码,具体的检索步骤为:S1.采用通用的网络结构来同时训练不同的媒体数据,并制定公共空间学习策略将不同的特征映射到同一公共空间;S2.公共空间学习的过程,通过特征图的通道、长度和宽度,推导出需要学习的特征映射矩阵;S21.通过线性变换提取查询向量、键向量和值向量;S22.通过两组关系函数拼接查询向量和键向量;S3.使用跨媒体度量学习方法来验证公共空间学习结构,通过分类损失区分每种媒体中细粒度语义特征;
S4.使用两组卷积层来学习方向信息,并使用线性映射将维度转为与值向量相同的通道维度。
[0006]进一步的,在S1中,在监督学习任务中,训练输入是以样本标签对形式给出,其中是一个d维的特征向量,是其细粒度标签;由于模型输入包含四种媒体实例,它们处于不同的特征空间中,输入数据可表示成以下形式:,其中I、V、A、T代表图像、视频、音频、文本;在执行检索任务前,需要将不同的媒体数据映射到同一个特征空间中,输出可以表示成以下形式:。因此,公共空间学习可定义为以下形式:可通过学习特征映射矩阵来得到四种媒体数据的通用表示形式。
[0007]更进一步的,在S2中,公共空间学习特征可表示为:输入特征为,输出特征为,其中表示特征图的通道、长度和宽度,是需要学习的特征映射矩阵。
[0008]进一步的,在S21中,以大小的局部区域为例,对于大小的特征图,首先通过线性变换提取查询向量、键向量和值向量:其中,是一个可训练的权重参数、是每个查询特征的位置、是以为中心的局部区域中的每一个位置。
[0009]进一步的,在S22中,将查询向量转为一个大小为的多通道长序列(通道数量为,用于降维),序列中每个位置的特征对应于查询特征,并将键向量转为一个大小为的多通道长序列;对于查询向量中的每一个特征,在键向量中都有一个相对应的局部区域特征,其中;通过关系函数拼接查询向量和键向量,对比两种函数:函数:。
[0010]更进一步的,在S3中,不同的媒体特征都经过公共空间学习映射到了同一个语义空间中;细粒度跨媒体检索需要在此空间中衡量特征之间的细粒度损失和跨媒体相关性损
失;使用分类损失来区分每种媒体中细粒度语义特征,同时使用中心损失来测量不同媒体特征距离类别中心的距离,细粒度跨媒体检索总损失函数定义如下:对于分类损失,本专利技术使用一层平均池化层和一层线性层提取公共空间中的特征,然后最小化分类损失来减少媒体内样本细粒度差异;分类损失定义如下:其中,分别表示图像、视频、音频、文本,为标签,为样本概率特征;对于中心损失,本专利技术同样使用一层平均池化层和一层线性层提取公共空间中的特征,然后最小化中心损失来使同一类别下的不同媒体特征更紧凑;中心损失定义如下:其中,表示在使用中心损失时忽视样本具体的媒体类型,只计算它们到中心的距离。
[0011]更进一步的,在S4中,同一通道中不同位置的特征表示为不同的特征,在不同通道中具有相同位置的特征表示为查询向量及其局部区域向量;由于拼接后的特征为大小,λ映射中的卷积核尺寸设定为;在λ映射中使用两个卷积层来学习特征之间的位置编码;第一个卷积层使用个卷积核来学习个特征在个不同通道上的方向信息,并进行降维;第二个卷积层使用个卷积核来学习方向信息,然后通过线性映射将维度转为与值向量相同的通道维度。
[0012]与现有技术相比,本专利技术的有益效果是:本专利技术中的方法使用注意力机制来学习特征映射矩阵,从而将不同的媒体数据映射到同一个公共空间中进行相似性度量。由于自注意力机制可以学习特征之间有意义的相互依赖关系,因此本专利技术使用它来计算局部区域内每个特征之间的相似性从而生成特征映射矩阵,可以通过端到端的方式进行训练,非常灵活。同时,与传统自注意力网络相比,本专利技术提出的方法在添加位置编码后可以像卷积层一样学习特征的空间信息。
附图说明
[0013]图1为本专利技术细粒度跨媒体网络主体结构示意图;图2为本专利技术公共空间学习示意图。
具体实施方式
[0014]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完
整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0015]请参照图1和图2所示,本专利技术为一种基于局部自注意力的细粒度跨媒体检索方法,包括公共空间学习、损失函数和可学习的位置编码,具体的检索步骤为:S1.采用通用的网络结构来同时训练不同的媒体数据,并制定公共空间学习策略将不同的特征映射到同一公共空间;S2.公共空间学习的过程,通过特征图的通道、长度和宽度,推导出本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于局部自注意力的细粒度跨媒体检索方法,其特征在于,包括公共空间学习、损失函数和可学习的位置编码,具体的检索步骤为:S1.采用通用的网络结构来同时训练不同的媒体数据,并制定公共空间学习策略将不同的特征映射到同一公共空间;S2.公共空间学习的过程,通过特征图的通道、长度和宽度,推导出需要学习的特征映射矩阵;S21.通过线性变换提取查询向量、键向量和值向量;S22.通过两组关系函数拼接查询向量和键向量;S3.使用跨媒体度量学习方法来验证公共空间学习结构,通过分类损失区分每种媒体中细粒度语义特征;S4.使用两组卷积层来学习方向信息,并使用线性映射将维度转为与值向量相同的通道维度。2.根据权利要求1所述的一种基于局部自注意力的细粒度跨媒体检索方法,其特征在于,在S1中,在监督学习任务中,训练输入以样本标签对形式给出,其中是一个d维的特征向量,是其细粒度标签;公共空间学习定义为以下形式:其中I、V、A、T代表图像、视频、音频、文本;代表学习特征映射矩阵。3.根据权利要求2所述的一种基于局部自注意力的细粒度跨媒体检索方法,其特征在于,在S2中,公共空间特征学习表示为:输入特征为,输出特征为,其中分别表示特征图的通道、长度和宽度,是需要学习的特征映射矩阵。4.根据权利要求1所述的一种基于局部自注意力的细粒度跨媒体检索方法,其特征在于,在S21中,以大小的局部区域为例,对于大小的特征图,首先通过线性变换提取查询向量、键向量和值向量:其中,是一个...

【专利技术属性】
技术研发人员:姚亚洲沈复民孙泽人陈涛白泞玮
申请(专利权)人:南京码极客科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1