一种基于通道细粒度语义特征的跨媒体检索方法技术

技术编号：36436532 阅读：18 留言：0更新日期：2023-01-20 22:50

本发明专利技术公开一种基于通道细粒度语义特征的跨媒体检索方法，包括S1.首先，通过深度网络生成具有丰富通道信息的特征图；S2.按通道进行划分并输入到细粒度学习层和跨媒体学习层；S3.将细粒度损失函数和跨媒体损失函数的结果相加作为跨媒体联合损失。本申请通过将通道进行分组来代表每个局部关键区域，并使用全局损失来生成不同的局部关键区域，然后使用局部损失来学习每个局部关键区域的细粒度语义特征，最后使用跨媒体损失来度量不同媒体数据之间的相关性；相对于传统的跨媒体检索方法，本申请中的方法可以同时学习不同媒体的细粒度语义特征用于跨媒体检索，可以避免为每种媒体数据都设计一个专用网络带来的高训练成本。据都设计一个专用网络带来的高训练成本。据都设计一个专用网络带来的高训练成本。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于通道细粒度语义特征的跨媒体检索方法

[0001]本专利技术涉及跨媒体检索
，具体为一种基于通道细粒度语义特征的跨媒体检索方法。

技术介绍

[0002]过去几年里，无监督的细粒度特征提取方法得到了广泛研究，该类方法旨在提取特征图中具有判别性的局部关键区域，然后通过学习同一个输入数据中不同局部关键区域之间的联系和不同输入数据之间局部关键区域之间的区别来进行端到端的训练。通常在训练阶段将模型分为两个子网络，第一个网络用于生成局部关键区域，第二个网络学习关键区域之间的细粒度语义特征。
[0003]这些基于局部关键区域的细粒度特征提取网络结构虽然只需要图像级别的标注，然而其网络训练方法与监督学习类似，需要较高的模型复杂度和训练难度。因而采用这些方法来提取不同媒体的细粒度特征和学习跨媒体相关性将会带来无法承担的训练时间和模型复杂度。
[0004]随着CNN的发展，研究者们根据细粒度数据集的类内方差大、类间方差小的特点，仅仅通过设计特定任务的损失函数就可以使相同类别的特征具有紧凑性类，并且可以使不同类别的特征具有稀疏性。例如，在2016年的European conference on computer vision会议的“A discriminative feature learning approach for deep face recognition”论文中，提出了中心损失，通过为类别设置中心点，并在每次迭代过程中更新中心点的位置来度量各个特征距离类别中心点的距离，这可以有效地让具有相同类别的特...

【技术保护点】

【技术特征摘要】
1.一种基于通道细粒度语义特征的跨媒体检索方法，其特征在于，包括如下步骤：S1.首先，通过深度网络生成具有丰富通道信息的特征图；S2.按通道进行划分并输入到细粒度学习层和跨媒体学习层；S21.将图像数据、视频数据、音频数据和文本数据这四种媒体数据分别输入到细粒度学习层来学习细粒度判别特征，输出为细粒度损失；S22.将S21中的四种媒体数据联合输入到跨媒体学习层来学习跨媒体相关性，输出为跨媒体损失；S3.将细粒度损失函数和跨媒体损失函数的结果相加作为跨媒体联合损失；S4.采用实验来评估检索方法的性能。2.根据权利要求1所述的一种基于通道细粒度语义特征的跨媒体检索方法，其特征在于，在S2中，在细粒度跨媒体检索任务中，输入数据包含图像、音频、视频和文本四种媒体；采用多媒体混合输入方法进行训练，通过平等地采样不同的媒体数据进行联合输入，网络输入为，其中代表图像、视频、音频、文本，代表它们的标签；采用统一的网络来提取媒体类型数据的高维通道的特征图，输出为，其中大小的特征向量，c为通道数量，h为特征图的长，w为特征图的宽。3.根据权利要求2所述的一种基于通道细粒度语义特征的跨媒体检索方法，其特征在于，在特征提取器的输出特征中将四种不同的媒体数据按通道进行划分，每组通道代表不同的具有细粒度判别性的特征区域，将四种媒体数据的通道平均地分为n组,每组特征大小为,通过对每组的个通道中个通道数量的大小特征图中的特征向量全部置零，并打乱所有组的个通道的特征图的前后空间位置；通过跨媒体联合损失对分组后的特征图进行度量，损失函数由细粒度损失和跨媒体损失组成；跨媒体联合损失的定义如下：其中，为各个媒体数据的细粒度损失，包括图像数据、视频数据、音频数据、文本数据；为跨媒体损失，为用于控制跨媒体损失影响程度的超参数。4.根据权利要求2所述的一种基于通道细粒度语义特征的跨媒体检索方法，其特征在于，在S21中，通过学习细粒度局部关键区域之间的全局和局部关系来提取图像、视频、音频和文本四种媒体数据的细粒度语义特征并用于进行损失度量，媒体数据的细粒度损失定义如下：其中，表示细粒度局部损失，表示细粒度全局损失，m表示全局损失项的权重。5.根据权利要求4所述的一种基于通道细粒度语义特征的跨媒体检索方法，其特征在于，对每组通道中所有特征图进行通道平均池化和通道最大池化，通道平均池化层对每组大小的特征图按位置相加，然后除以，每组特征图的输出大小为
；通道最大池化层对每组大小的特征图按位置取最大值，每组特征图的输出大小为；通过对所有组进行通道平均池化和通道最大池化来获得所有局部关键区域的特征表示，然后将这两个输出结果按位置相加，总输出特征图的...

【专利技术属性】
技术研发人员：姚亚洲，沈复民，孙泽人，陈涛，白泞玮，
申请(专利权)人：南京码极客科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人