一种基于通道细粒度语义特征的跨媒体检索方法技术

技术编号:36436532 阅读:18 留言:0更新日期:2023-01-20 22:50
本发明专利技术公开一种基于通道细粒度语义特征的跨媒体检索方法,包括S1.首先,通过深度网络生成具有丰富通道信息的特征图;S2.按通道进行划分并输入到细粒度学习层和跨媒体学习层;S3.将细粒度损失函数和跨媒体损失函数的结果相加作为跨媒体联合损失。本申请通过将通道进行分组来代表每个局部关键区域,并使用全局损失来生成不同的局部关键区域,然后使用局部损失来学习每个局部关键区域的细粒度语义特征,最后使用跨媒体损失来度量不同媒体数据之间的相关性;相对于传统的跨媒体检索方法,本申请中的方法可以同时学习不同媒体的细粒度语义特征用于跨媒体检索,可以避免为每种媒体数据都设计一个专用网络带来的高训练成本。据都设计一个专用网络带来的高训练成本。据都设计一个专用网络带来的高训练成本。

【技术实现步骤摘要】
一种基于通道细粒度语义特征的跨媒体检索方法


[0001]本专利技术涉及跨媒体检索
,具体为一种基于通道细粒度语义特征的跨媒体检索方法。

技术介绍

[0002]过去几年里,无监督的细粒度特征提取方法得到了广泛研究,该类方法旨在提取特征图中具有判别性的局部关键区域,然后通过学习同一个输入数据中不同局部关键区域之间的联系和不同输入数据之间局部关键区域之间的区别来进行端到端的训练。通常在训练阶段将模型分为两个子网络,第一个网络用于生成局部关键区域,第二个网络学习关键区域之间的细粒度语义特征。
[0003]这些基于局部关键区域的细粒度特征提取网络结构虽然只需要图像级别的标注,然而其网络训练方法与监督学习类似,需要较高的模型复杂度和训练难度。因而采用这些方法来提取不同媒体的细粒度特征和学习跨媒体相关性将会带来无法承担的训练时间和模型复杂度。
[0004]随着CNN的发展,研究者们根据细粒度数据集的类内方差大、类间方差小的特点,仅仅通过设计特定任务的损失函数就可以使相同类别的特征具有紧凑性类,并且可以使不同类别的特征具有稀疏性。例如,在2016年的European conference on computer vision会议的“A discriminative feature learning approach for deep face recognition”论文中,提出了中心损失,通过为类别设置中心点,并在每次迭代过程中更新中心点的位置来度量各个特征距离类别中心点的距离,这可以有效地让具有相同类别的特征集中分布在一起。这些虽然方法不需要设计复杂的网络结构,仅仅通过优化损失函数就可以获得细粒度级别的判别信息,但是由于没有提取目标的局部关键区域,往往对含有噪声的训练数据非常敏感。由于细粒度跨媒体数据集中同一类别的数据包含图像、视频、音频、文本这四种不同的媒体,如果不提取这些媒体数据的局部关键区域,直接学习他们的细粒度语义特征,很容易受到不同媒体数据的噪声影响导致模型收敛速度慢甚至不收敛。
[0005]与此相比,在2020年的IEEE Transactions on Image Processing期刊的The devil is in the channels: Mutual

channel loss for fine

grained image classification文章中,在特征图的通道上研究细粒度局部区域之间的相关性,他们将通道数量均匀地划分成组,每组通道特征代表一个类,以此来进行图像细粒度分类。

技术实现思路

[0006]受这一研究启发,本专利技术提出了一种基于通道细粒度语义特征的跨媒体检索方法CFSFL(channel fine

grained semantic feature learning),用于生成局部关键区域以学习不同媒体特征的细粒度语义表示和跨媒体相关性。
[0007]为实现上述目的,本专利技术提供如下技术方案:一种基于通道细粒度语义特征的跨媒体检索方法,包括如下步骤:
S1.首先,通过深度网络生成具有丰富通道信息的特征图;S2.按通道进行划分并输入到细粒度学习层和跨媒体学习层;S21.将图像数据、视频数据、音频数据和文本数据这四种媒体数据分别输入到细粒度学习层来学习细粒度判别特征,输出为细粒度损失;S22.将S21中的四种媒体数据联合输入到跨媒体学习层来学习跨媒体相关性,输出为跨媒体损失;S3.将细粒度损失函数和跨媒体损失函数的结果相加作为跨媒体联合损失。
[0008]进一步的,在S2中,在细粒度跨媒体检索任务中,输入数据包含图像、音频、视频和文本四种媒体;采用多媒体混合输入方法进行训练,通过平等地采样不同的媒体数据进行联合输入,网络输入为 ,其中代表图像、视频、音频、文本,代表它们的标签;采用统一的网络来提取媒体类型数据的高维通道的特征图,输出为,其中大小的特征向量,c为通道数量,h为特征图的长,w为特征图的宽。
[0009]更进一步的,在特征提取器的输出特征中将四种不同的媒体数据按通道进行划分,每组通道代表不同的具有细粒度判别性的特征区域,将四种媒体数据的通道平均地分为n组,每组特征大小为,通过对每组的个通道中个通道数量的大小特征图中的特征向量全部置零,并打乱所有组的个通道的特征图的前后空间位置;通过跨媒体联合损失对分组后的特征图进行度量,损失函数由细粒度损失和跨媒体损失组成;跨媒体联合损失的定义如下:其中,为各个媒体数据的细粒度损失,包括图像数据、视频数据、音频数据、文本数据;为跨媒体损失,为用于控制跨媒体损失影响程度的超参数。
[0010]进一步的,在S21中,通过学习细粒度局部关键区域之间的全局和局部关系来提取图像、视频、音频和文本四种媒体数据的细粒度语义特征并用于进行损失度量,媒体数据的细粒度损失定义如下:其中,表示细粒度局部损失,表示细粒度全局损失,m表示全局损失项的权重。
[0011]更进一步的,对每组通道中所有特征图进行通道平均池化和通道最大池化,通道平均池化层对每组大小的特征图按位置相加,然后除以,每组特征图的输出大小为;通道最大池化层对每组大小的特征图按位置取最大值,每组特征图的输出大小为;通过对所有组进行通道平均池化和通道最大池化来获得所有局部关键区域的特征表示,然后将这两个输出结果按位置相加,总输出特征图的大小为;然后,将特征图输入到全局平均池化层来提取每个局部关键区域的的语义表示,输出特征大小为;全局平均池化层通过将每组大
小的特征图中的所有特征点相加然后除以,以获得该特征图的语义特征,输出为大小;对这n个局部关键区域特征分别计算局部损失,细粒度局部损失定义如下:其中,分别表示图像、视频、音频、文本,为标签,为概率特征。
[0012]更进一步的,通过全局损失来学习特征图的全局表示,首先将大小的的特征图经过通道分组后输入函数中计算所有特征图的的概率,输出特征表示为每张特征图中特征点的权重,输出特征大小为;为了获得每个局部特征最具代表性的特征图,通过通道最大池化层将每组个特征图的特征信息拟合到一个特征图中,最大池化层对同组的所有特征图中按位置取最大值,每组特征图的输出为;通过对所有的局部关键区域进行通道最大池化可以获得最具代表性的n个特征图;最后,通过全局损失计算这n个区域之间的相关性,细粒度全局损失定义如下:其中,分别表示图像、视频、音频、文本,n为局部区域的数量,h为特征图的长,w为特征图的宽,x为特征图上的每一个特征点。
[0013]进一步的,在S22中,对于输入大小为的特征图,通过一个全局平均池化层来提取这些媒体数据在每个通道上的特征表示,输出大小为;通过跨媒体损失来度量这些媒体数据之间的差异,跨媒体损失函数定义如下:其中,分别表示图像、视频、音频、文本,表示第i个输入样本,表示第i个样本的类别中心。
[0014]更进一步的,在S4中,实验使用mAP分数对通道细粒度语义特征的跨媒体检索方法的性能进行检,具体计算方式如下:使用混淆本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于通道细粒度语义特征的跨媒体检索方法,其特征在于,包括如下步骤:S1.首先,通过深度网络生成具有丰富通道信息的特征图;S2.按通道进行划分并输入到细粒度学习层和跨媒体学习层;S21.将图像数据、视频数据、音频数据和文本数据这四种媒体数据分别输入到细粒度学习层来学习细粒度判别特征,输出为细粒度损失;S22.将S21中的四种媒体数据联合输入到跨媒体学习层来学习跨媒体相关性,输出为跨媒体损失;S3.将细粒度损失函数和跨媒体损失函数的结果相加作为跨媒体联合损失;S4.采用实验来评估检索方法的性能。2.根据权利要求1所述的一种基于通道细粒度语义特征的跨媒体检索方法,其特征在于,在S2中,在细粒度跨媒体检索任务中,输入数据包含图像、音频、视频和文本四种媒体;采用多媒体混合输入方法进行训练,通过平等地采样不同的媒体数据进行联合输入,网络输入为 ,其中代表图像、视频、音频、文本,代表它们的标签;采用统一的网络来提取媒体类型数据的高维通道的特征图,输出为,其中大小的特征向量,c为通道数量,h为特征图的长,w为特征图的宽。3.根据权利要求2所述的一种基于通道细粒度语义特征的跨媒体检索方法,其特征在于,在特征提取器的输出特征中将四种不同的媒体数据按通道进行划分,每组通道代表不同的具有细粒度判别性的特征区域,将四种媒体数据的通道平均地分为n组,每组特征大小为,通过对每组的个通道中个通道数量的大小特征图中的特征向量全部置零,并打乱所有组的个通道的特征图的前后空间位置;通过跨媒体联合损失对分组后的特征图进行度量,损失函数由细粒度损失和跨媒体损失组成;跨媒体联合损失的定义如下:其中,为各个媒体数据的细粒度损失,包括图像数据、视频数据、音频数据、文本数据;为跨媒体损失,为用于控制跨媒体损失影响程度的超参数。4.根据权利要求2所述的一种基于通道细粒度语义特征的跨媒体检索方法,其特征在于,在S21中,通过学习细粒度局部关键区域之间的全局和局部关系来提取图像、视频、音频和文本四种媒体数据的细粒度语义特征并用于进行损失度量,媒体数据的细粒度损失定义如下:其中,表示细粒度局部损失,表示细粒度全局损失,m表示全局损失项的权重。5.根据权利要求4所述的一种基于通道细粒度语义特征的跨媒体检索方法,其特征在于,对每组通道中所有特征图进行通道平均池化和通道最大池化,通道平均池化层对每组大小的特征图按位置相加,然后除以,每组特征图的输出大小为
;通道最大池化层对每组大小的特征图按位置取最大值,每组特征图的输出大小为;通过对所有组进行通道平均池化和通道最大池化来获得所有局部关键区域的特征表示,然后将这两个输出结果按位置相加,总输出特征图的...

【专利技术属性】
技术研发人员:姚亚洲沈复民孙泽人陈涛白泞玮
申请(专利权)人:南京码极客科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1