【技术实现步骤摘要】
一种基于局部自注意力的细粒度跨媒体检索方法
[0001]本专利技术涉及跨媒体检索
,具体为一种基于局部自注意力的细粒度跨媒体检索方法。
技术介绍
[0002]近年来,跨媒体公共空间学习的研究者们通过修改网络结构来同时学习细粒度语义特征和跨媒体相关性。这些研究者们认为共享相同语义的数据具有潜在的相关性,然后将不同的媒体数据通过网络映射到同一个公共空间中来学习不同媒体数据之间的相似性和细粒度语义特征。例如,在2019年10月的the 27th ACM International Conference on Multimedia会议的“A new benchmark and approach for fine
‑
grained cross
‑
media retrieval”论文中,使用统一的Resnet网络模型同时学习图像、文本、音频、视频数据的通用表示形式,而不需要对不同媒体数据进行特殊处理。尽管卷积网络可以快速学习特征之间的空间关系,但是它不能有效学习跨多种媒体数据的公共特征空间。其他 ...
【技术保护点】
【技术特征摘要】
1.一种基于局部自注意力的细粒度跨媒体检索方法,其特征在于,包括公共空间学习、损失函数和可学习的位置编码,具体的检索步骤为:S1.采用通用的网络结构来同时训练不同的媒体数据,并制定公共空间学习策略将不同的特征映射到同一公共空间;S2.公共空间学习的过程,通过特征图的通道、长度和宽度,推导出需要学习的特征映射矩阵;S21.通过线性变换提取查询向量、键向量和值向量;S22.通过两组关系函数拼接查询向量和键向量;S3.使用跨媒体度量学习方法来验证公共空间学习结构,通过分类损失区分每种媒体中细粒度语义特征;S4.使用两组卷积层来学习方向信息,并使用线性映射将维度转为与值向量相同的通道维度。2.根据权利要求1所述的一种基于局部自注意力的细粒度跨媒体检索方法,其特征在于,在S1中,在监督学习任务中,训练输入以样本标签对形式给出,其中是一个d维的特征向量,是其细粒度标签;公共空间学习定义为以下形式:其中I、V、A、T代表图像、视频、音频、文本;代表学习特征映射矩阵。3.根据权利要求2所述的一种基于局部自注意力的细粒度跨媒体检索方法,其特征在于,在S2中,公共空间特征学习表示为:输入特征为,输出特征为,其中分别表示特征图的通道、长度和宽度,是需要学习的特征映射矩阵。4.根据权利要求1所述的一种基于局部自注意力的细粒度跨媒体检索方法,其特征在于,在S21中,以大小的局部区域为例,对于大小的特征图,首先通过线性变换提取查询向量、键向量和值向量:其中,是一个...
【专利技术属性】
技术研发人员:姚亚洲,沈复民,孙泽人,陈涛,白泞玮,
申请(专利权)人:南京码极客科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。