基于判别相关分析的跨媒体检索方法技术

技术编号:7759622 阅读:238 留言:0更新日期:2012-09-14 02:13
本发明专利技术公开了一种基于判别相关分析的跨媒体检索方法,该方法包括以下步骤:建立跨媒体训练数据库,依次对其中不同模态样本进行特征提取、均值预处理和线性投影变换,并根据投影空间设定一目标函数;求解目标函数得到线性投影向量;建立跨媒体测试数据库;对待检索对象依次进行特征提取和均值预处理;使用所述线性投影向量对经均值预处理的特征数据进行线性投影变换;计算两模态数据投影变量之间的欧式距离,并进行升序排序,从而得到跨媒体检索结果。本发明专利技术方法能够对特征数据进行有效地降维,从而广泛地应用在其他很多多模态工作中,比如多模态生物特征识别。

【技术实现步骤摘要】

本专利技术涉及模式识别和机器学习领域,尤其是一种。
技术介绍
近年来,大量出现的多媒体数据呈现两个明显的特点高维度性和多源性,例如同一个语义概念可以由网络上的文字、图片、视频等多种内容来表示。此外,互联网用户还主要通过文本关键字搜索所需要的信息,这主要是因为搜索引擎无法理解不同模态媒体之间的相互关系,从而限制了搜索引擎的发展。特征降维揭示了高维数据在低维空间中的流形结构以及不同模态数据之间的相关性,在信息检索、模式分类,信息可视化等领域发挥了重大的作用。 单模态数据的特征降维方法有很多,主成份分析(Principal ComponentAnalysis)把原始数据投影到具有最大方差的主方向上;线性判别分析(LinearDiscriminant Analysis, LDA)是一种有监督降维方法,在充分利用类别信息的条件下找到一个投影子空间,使得不同类别的特征具有最优的判别性;局部线性嵌入(LocallyLinear Embedding)是最早的非线性局部保留方法,每个数据点与其最近邻数据点的线性关系在投影空间中得以保留;LE(Laplacian Eigenmaps)在投影空间中保留了局部两个数据点的距离,LPP(Locality Preserving Projection)是其线性近似算法;多层自编码网络(Multilayer Autoencoder Network)是主成份分析方法的非线性扩展。有研究工作指出,虽然非线性方法处理模拟数据性能很好,但是对于现实数据却不一定比传统的主成份分析方法好,而且以上提到的这些方法均不能直接应用于多模态跨媒体检索。多模态数据的特征降维方法研究并不是很多,典型相关分析(CanonicalCorrelation Analysis, CCA)是其中最为有名的多变量数据分析方法,它把多模态数据分别线性投影到同一子空间,使得多模态变量具有最大相关性;与典型线性相关不同,PLS(Partial Least Square)在投影空间中使多模态变量具有最大协方差;在多层自编码网络的启发下,多模态深度学习网络被提出来为不同模态数据学习共同的表示。总之,以上方法更多的是以最大化多模态变量的相关性为目标去寻找投影空间,而忽略了最大化多模态数据中不同类别数据的判别性,而判别性在多模态数据检索与分类任务中往往非常重要。
技术实现思路
现有多模态数据分析方法普遍没有考虑数据的判别性,本专利技术提供了一种基于判别相关分析(Discriminant Correlation Analysis, DCA)的方法,它融合了典型相关分析和线性判别分析的思想,同时优化多种模态数据的相关性和不同类别数据的判别性。本专利技术所提出的一种,其特征在于,该方法包括以下步骤步骤1,建立包括一一对应的图像和文本对的跨媒体训练数据库并提取该数据库中不同模态样本的特征向量,得到相应的特征数据点集;步骤2,分别对图像与文本两个模态的特征数据点集进行均值预处理,使得每个模态的特征数据点集的均值为O ;步骤3,将经过均值预处理的特征数据点集进行线性投影变换,并根据得到的投影空间设定一关于线性投影变量的目标函数;步骤4,使用特征值求解法求解所述目标函数,得到线性投影向量a和b ;步骤5,建立包括--对应的图像和文本对的跨媒体测试数据库;步骤6,输入待检索对象,并分别提取待检索对象的特征向量以及跨媒体测试数据库中与待检索对象属于不同模态的对象集的特征数据点集;步骤7,对步骤6得到的特征向量和特征数据点集分别进行所述均值预处理;步骤8,使用所述步骤4得到的线性投影向量a和b对经过均值预处理的特征向量和特征数据点集分别进行线性投影变换;步骤9,计算待检索对象的投影变量与对象集的投影变量之间的欧式距离,并对所有的欧式距离进行升序排序,前η个欧式距离对应的对象数据即是在所述跨媒体测试数据库中检索得到的与待检索图像相关的另一模态的对象。本专利技术方法能够对特征数据进行有效地降维,从而广泛地应用在其他很多多模态工作中,比如多模态生物特征识别。实验证明,本专利技术方法在跨媒体检索中比典型相关分析,以及典型相关分析与线性判别分析的简单组合性能都要好。附图说明图I是本专利技术方法的实现流程图;图2是本专利技术方法在一个模拟数据集上与其他相关方法的对比结果。具体实施例方式为使本专利技术的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本专利技术进一步详细说明。图I是本专利技术方法的实现流程图,如图I所示,本专利技术所提出的一种包括训练过程(图1(a))和测试过程(图1(b)和(c)),具体地,图1(a)为本专利技术中利用训练数据库中的图像文本对学习投影向量a,b的流程图,如图1(a)所示,本专利技术的训练过程包括以下步骤步骤1,建立包括一一对应的图像和文本对的跨媒体训练数据库并提取该数据库中不同模态样本的特征向量,得到相应的特征数据点集。本专利技术首先建立图像和文本一一对应的跨媒体训练数据库,然后分别使用尺度不变特征变换(Scale-Invariant Feature Transform, SIFT)算法和隐狄雷克雷分布(LatentDirichlet Allocation, LDA)算法对图像和文本进行特征提取。步骤2,分别对图像与文本两个模态的特征数据点集进行均值预处理,使得每个模态的特征数据点集的均值为O : X —x-E(x) (I)y — y-E (y)其中,X和y为给定的两个模态特征数据点集,比如图像与文本对应的特征数据集合,其分别对应的数据点集为Ix1,... χη}和{y1;... yj,每个数据点集中的数据分别属于共同的k个类别{ .Α, ;E(x),E (y)为原始数据点集的均值。步骤3,将经过均值预处理的图像与文本特征数据点集进行线性投影变换得到投影空间,根据所述投影空间设定一目标函数,该目标函数是关于用于进行线性投影变换的线性投影变量的目标函数。 给定投影向量a和b,将图像与文本两个模态特征数据点集对应的变量集合X和y进行线性投影变换,得到相应的投影变量u和V :u = aTx (2)V = bTy所述根据线性投影变换得到的投影空间设定目标函数的步骤进一步包括以下步骤步骤3. 1,计算投影空间中投影变量u和V的协方差COV (U,V)cov{u, V) = aT E{xyT )b= -^ar E (xyT )b + ^bT E{yxT )a…p ,4 0⑶= [a Vh ^E(yxT) 0-=[αΓ:其中,Σ定义为此协方差的特征矩阵。步骤3. 2,计算图像与文本两个模态特征数据点集在投影空间中的类间方差和类内方差σ Β和ow:(4) I kCTw = —Σ Σ ((%. —ωηι )(Ur ~ωη,Υ + (Vr ~ )(Vt ~ ω mf ) m=l iGCm其中,η表示每个数据点集中数据的个数,Iini表示每个数据点集中第m类的数据的数目,k为类别的个数,ωπ表示两个数据点集中第m类数据的均值 =每(丄+丄 Σ\)(6) 1 nm i^Cmnm iGCm把投影公式⑵带入到式⑷和(5),则Ow可以重写为σΒ = ΓαΓ bTlSB a(7) L 」σψ=[ατ bT^Sw ^(8)其中,&和Sw称为多模态数据的“类间散列矩阵”和“类内散本文档来自技高网
...

【技术保护点】

【技术特征摘要】

【专利技术属性】
技术研发人员:谭铁牛王亮王威
申请(专利权)人:中国科学院自动化研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1