一种基于子空间学习的不完整跨模态检索方法技术

技术编号:15639456 阅读:718 留言:0更新日期:2017-06-15 23:40
本发明专利技术公开一种基于子空间学习的不完整跨模态检索方法,该方法通过收集多模态数据并提取特征;构造不完整观测的多模态数据集合;基于回归方式学习不完整观测多模态数据集共享子空间表达;对不同模态数据集进行特征学习以选择出具有较强判别能力的特征;挖掘不完整观测模态间和模态内相似性关系,建立优化目标函数;优化目标函数得到多模态数据共享子空间表达及基于回归方式的投影矩阵;根据投影矩阵进行跨模态检索。本发明专利技术解决了模态间特征异质的问题,同时可充分利用具有完整模态和不完整模态的数据,增强了跨模态检索性能。

【技术实现步骤摘要】
一种基于子空间学习的不完整跨模态检索方法
本专利技术涉及跨模态检索
,尤其是一种基于子空间学习的不完整跨模态检索方法。
技术介绍
随着多媒体技术的迅猛发展,用户每天都分享着海量的多媒体信息,如图像、文本和视频。往往同一语义的数据由以上多种媒体特征进行描述,如一个网页可以由文本,图片和超级链接进行表征。以上多媒体数据的爆炸式增长,极大地促进了跨模态检索的应用需求,如用文本检索图片或者用图片检索文本等。因此,跨模态检索具有极其重要的研究和应用价值。传统跨模态检索方法一般假设每一个数据点都具有完整的多模态表达,如由网页组成的数据集合,每一个网页都有完整的文本模态表达和图像模态表达。然而,在更为一般的场景中,一些数据点可能仅有部分的多模态表达,而只有部分数据点包含完整的多模态表达,这样的数据集合称之为不完整观测多模态数据。在上述场景中,传统跨模态检索方法一般仅使用具有完整多模态表达的数据点进行建模,不能有效使用那些包含部分模态特征的数据点。因此,传统跨模态检索方法不能有效处理不完整跨模态检索问题。
技术实现思路
本专利技术的目的在于解决上述技术问题而提出一种基于子空间学习的不完整跨模态检索方法,以解决现有跨模态检索方法不能有效满足不完整跨模态检索的需求的问题。本专利技术是这样实现的,一种基于子空间学习的不完整跨模态检索方法,包括步骤:步骤S1,收集多模态数据并分别提取各模态的特征;步骤S2,利用提取的各模态的特征构造不完整观测多模态数据集;步骤S3,基于回归方式学习不完整观测多模态数据集共享子空间表达,并分别学习各模态数据线性投影矩阵;步骤S4,通过各模态数据线性投影矩阵增加结构约束,学习不同模态数据集的特征,选出判别能力符合判别要求的特征;步骤S5,挖掘不完整观测多模态集中的各模态间和模态内相似性关系,结合子空间学习和特征学习建立优化目标函数;步骤S6,优化所述目标函数得到多模态数据集共享子空间表达以及各模态的线性投影矩阵;步骤S7,根据所述各模态的线性投影矩阵进行跨模态检索。本专利技术在利用提取的各模态的特征构造不完整观测多模态数据集后,首先为每一模态学习一个线性投影矩阵,并使得具有完整模态表达的数据点的不同模态特征具有相同的子空间表达;然后针对具有不完整模态表达的数据点,同样将其投影到以上子空间,以得到所有数据点的子空间表达;最后引入特征学习,选择不同模态符合判别要求的具有较高判别力的特征进行子空间的学习;在此基础上,还加入模态间和模态内相似性关系,以进一步提升跨模态检索的性能。本专利技术通过线性投影矩阵将不同模态数据投影到同一子空间,解决了模态间特征异质的问题,同时可充分利用具有完整模态和不完整模态的数据。鉴于不同模态的特征冗余性较大且可能含有较强噪声,特征选择被嵌入到模型中以选择出具有较强判别能力的特征。最后,本专利技术同时将模态间和模态内的相似性关系考虑在内,可以进一步增强跨模态检索性能。附图说明图1是以图像和文本两模态为例的基于子空间学习的不完整跨模态检索方法示意图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本专利技术进一步详细说明。参见图1所示,一种基于子空间学习的不完整跨模态检索方法,包括以下步骤:步骤S1,收集多模态数据并分别提取各个不同模态的特征;所述多模态数据包括有图片数据以及图片数据相对应的文本数据,如图像标注词;所述不同模态特征,针对图片数据一般是视觉描述算子,比如SIFT或者GIST特征;针对文本数据一般是文档的词频向量。步骤S2,利用步骤S1提取的各个模态的特征,构造不完整观测多模态数据集;所述构造不完整观测多模态数据集,即仅部分数据点包含完整的多模态特征表达,另外一部分数据点包含部分的多模态特征表达。例如,针对由图像数据模态和对应的文本数据模态组成的多模态数据集合,则是部分样本包含文本模态与图片模态这两个模态的特征表达,其余的样本仅仅包含文本模态特征表达或者图片模态特征表达,其中包含文本模态与图片模态这两个模态的特征表达的样本与包含文本模态特征表达或者图片模态特征表达的比例可随机确定,具体比例不限。步骤S3,基于回归方式学习不完整观测多模态数据集共享子空间表达F,并分别学习各个不同模态的线性投影矩阵U1和U2。在该步骤S3中,基本的优化目标函数为:s.t.F∈{0,1}n×k;FIk=In其中,为数据库第一个模态的特征表达(如图像或者文本),为具有完整模态特征的数据在当前模态下的特征表达,仅有当前模态特征的数据的特征表达,Fc和分别对应具有完整模态特征的数据的子空间表达和仅有当前模态特征的数据的子空间表达,且满足优化目标中c表示具有完整模态数据点对应的数据,如Fc表示此部分点的子空间表达,表示此部分点在第一个模态下的特征表达。约束条件中,n和k别表示数据库样本总数目以及类别数目。和具有相似的解释。最终的不完整观测多模态数据集的共享子空间表达为U1和U2分别为两个模态的线性投影矩阵。该优化目标函数的约束条件中Ik和In,分别为k维和n维的由1组成的列向量,且k和n分别为多模态数据类别数目和样本总数目。以上约束条件使得学习得到的共享子空间符合数据语义类别结构,即每一个数据点属于且仅属于所有类别中的一类。步骤S4,给上述线性投影矩阵U1和U2增加设计的结构约束,以对不同模态数据集进行特征学习,进而选择出符合判别要求的具有较强判别能力的特征。步骤S4中,该线性投影矩阵的结构约束为L21范数约束,其定义为:其中,U1(i,:)表示第一个模态对应投影矩阵的第i行,通过最小化上述目标,可自动选择出符合判别要求的具有较高判别能力的特征,并同时去除冗余和具有符合预设噪声强度的较强噪声的特征。步骤S5,在选出具有较高判别能力的特征后,挖掘不完整观测模态间和模态内相似性关系,结合子空间学习和特征学习建立优化目标函数。步骤S5中,模态间和模态内的相似性关系Wpq和Wp分别定义为:其中Wpq(ij)表示模态间相似性关系矩阵的第i行第j列对应的元素值,为由高斯核计算出的相似度,表示两模态特征表达对应同一数据点,其中表示p模态下第i个数据点对应的特征,表示q模态下第j个数据点对应的特征。基于以上两种相似度矩阵,则总体相似度矩阵构造为:进而得到拉普拉斯矩阵L=D-W,其中D为对角矩阵,且其每个对角线元素对应W矩阵所对应行的所有元素之和。具体的L可以表示为其中L值中的元素与W具有相一致的对应关系。结合子空间学习与特征学习,最终的优化目标函数为:s.t.F∈{0,1}n×k;FIk=In其中α和β为预设的正整数,用于决定最终的优化目标函数中不同项的权值大小。步骤S6,采用交替优化方式优化目标函数得到多模态数据共享子空间表达F以及各个模态的线性投影矩阵U。在该步骤S6中,采用交替优化方式求解F和U,直至算法收敛。固定U,则目标函数改写为s.t.F∈{0,1}n×k;FIk=In首先将约束条件进行松弛为FTF=I;F≥0,之后将子空间表达F进行拆分,则上述优化目标变为:采用拉格朗日乘子法进行求解Fc:其中为拉格朗日乘子法求解上述优化目标的拉格朗日乘子,其计算方式为对于任意一个矩阵,假设用符号表示为Z,则采用梯度方法求解和固定F,则目标函数改写为:则U可以依据梯度进行求解,满足:本文档来自技高网...
一种基于子空间学习的不完整跨模态检索方法

【技术保护点】
一种基于子空间学习的不完整跨模态检索方法,其特征在于,包括步骤:步骤S1,收集多模态数据并分别提取各模态的特征;步骤S2,利用提取的各模态的特征构造不完整观测多模态数据集;步骤S3,基于回归方式学习不完整观测多模态数据集共享子空间表达,并分别学习各模态数据线性投影矩阵;步骤S4,通过各模态数据线性投影矩阵增加结构约束,学习不同模态数据集的特征,选出判别能力符合判别要求的特征;步骤S5,挖掘不完整观测多模态集中的各模态间和模态内相似性关系,结合子空间学习和特征学习建立优化目标函数;步骤S6,优化所述目标函数得到多模态数据集共享子空间表达以及各模态的线性投影矩阵;步骤S7,根据所述各模态的线性投影矩阵进行跨模态检索。

【技术特征摘要】
1.一种基于子空间学习的不完整跨模态检索方法,其特征在于,包括步骤:步骤S1,收集多模态数据并分别提取各模态的特征;步骤S2,利用提取的各模态的特征构造不完整观测多模态数据集;步骤S3,基于回归方式学习不完整观测多模态数据集共享子空间表达,并分别学习各模态数据线性投影矩阵;步骤S4,通过各模态数据线性投影矩阵增加结构约束,学习不同模态数据集的特征,选出判别能力符合判别要求的特征;步骤S5,挖掘不完整观测多模态集中的各模态间和模态内相似性关系,结合子空间学习和特征学习建立优化目标函数;步骤S6,优化所述目标函数得到多模态数据集共享子空间表达以及各模态的线性投影矩阵;步骤S7,根据所述各模态的线性投影矩阵进行跨模态检索。2.根据权利要求1所述方法,其特征在于,所述不完整观测多模态数据集中有部分数据包含完整的多模态特征表达,其它部分数据包含部分多模态特征。...

【专利技术属性】
技术研发人员:王亮吴书尹奇跃
申请(专利权)人:天津中科智能识别产业技术研究院有限公司
类型:发明
国别省市:天津,12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1