学习跨平台多模态媒体数据共同特征表示的方法及装置制造方法及图纸

技术编号:10609493 阅读:163 留言:0更新日期:2014-11-05 18:42
本发明专利技术公开了一种利用去噪自编码器学习跨平台多模态媒体数据共同特征表示的方法及装置。所述方法包括:步骤S1,建立优化目标方程;目标方程中,采用单层的去噪自编码器来重建不同平台和不同模态的媒体数据特征,在重建时,考虑模态相关性约束和跨平台约束;其中,所述不同平台和不同模态的媒体数据特征包括图像特征和文本特征;步骤S2,求得所述优化目标方程的解析解,在求解析解过程中,通过寻找偏导数为零的点得到全局最优解;步骤S3,利用边缘化方法对所得到的解析解进行求解,其中求解过程中通过弱大数定律来边缘化特征向量的随机噪声进行求解。本发明专利技术借助弱大数定律来边缘化特征向量的随机噪声。

【技术实现步骤摘要】
学习跨平台多模态媒体数据共同特征表示的方法及装置
本专利技术属于社会媒体(socialmedia)分析和跨媒体特征表示领域,具体涉及一种利用去噪自编码器学习跨平台多模态媒体数据共同特征表示的方法。
技术介绍
随着Web2.0的快速普及,越来越多的社会媒体网站(例如Flickr、YouTube、Facebook和Google)可供用户发布和共享信息。这使得发生在人们周围的事件以更快的速度被记录和传播并随之产生了大量不同模态的媒体数据,例如图像、文本和视频。据统计,在1分钟之内,有3125张图片被上传到Flickr,700K条消息在Facebook上被发送,2MM视频在YouTube上被浏览。用户上传的信息不仅规模巨大,而且以不同的模态存在于不同平台上。这些社会多媒体数据中存在着宝贵的信息,并且已经被用于大量的应用中。例如,实时社会媒体数据流(Twitter)被用于语义视频推荐、社会事件预测和图像标注。Flickr上的图片信息被成功地用于预测2008年美国总统选举、产品销售分部监控以及产品销售量预测。社会媒体图像中的人脸表情被用于监测总统选举中舆情信息。在社会媒体的各种应用中,关键的问题在于如何从大量媒体数据中抽取有效的特征。目前大部分的方法都是基于媒体的上下文信息,例如时间、位置和文本描述。这些描述性信息容易被抽取,但有大量的媒体数据并没有包含这些上下文信息,因此无法得到有效的特征表示。基于内容的社会媒体信息抽取可以解决这些问题。但基于内容的特征表示存在三个难点:(1)社会媒体数据具有多模态属性。例如社会媒体网站中的媒体样本通常同时被图像、文本表示。(2)社会媒体数据的跨平台特性。例如关于特定社会事件的图像可能同时存在于Flickr和Facebook中。(3)传统手工设定的特征仍然不能有效地表示多媒体数据中包含的语义信息。
技术实现思路
本专利技术的目的是针对社会媒体数据的跨平台多模态特性,通过去噪自编码器(denoisingauto-encoder)来提高底层特征的表示能力,通过最大化不同模态间的相关性来挖掘不同模态数据的共同语义特征,通过跨平台约束来学习不同平台上多媒体数据的共同特征表示。为实现上述目的,本专利技术提供一种利用去噪自编码器学习跨平台多模态媒体数据共同特征表示的方法,该方法包括以下步骤:步骤S1,建立优化目标方程;目标方程中,采用单层的去噪自编码器来重建不同平台和不同模态的媒体数据特征,在重建时,考虑模态相关性约束和跨平台约束;其中,所述不同平台和不同模态的媒体数据特征包括图像特征和文本特征;步骤S2,求得所述优化目标方程的解析解,在求解析解过程中,通过寻找偏导数为零的点得到全局最优解;步骤S3,利用边缘化方法对所得到的解析解进行求解,其中求解过程中通过弱大数定律来边缘化特征向量的随机噪声进行求解。本专利技术还提供了一种利用去噪自编码器学习跨平台多模态媒体数据共同特征表示的装置,其特征在于,该装置包括:建立模块,其用于建立优化目标方程;目标方程中,采用单层的去噪自编码器来重建不同平台和不同模态的媒体数据特征,在重建时,考虑模态相关性约束和跨平台约束;其中,所述不同平台和不同模态的媒体数据特征包括图像特征和文本特征;解析解模块,其用于求得所述优化目标方程的解析解,在求解析解过程中,通过寻找偏导数为零的点得到全局最优解;求解模块,其利用边缘化方法对所得到的解析解进行求解,其中求解过程中通过弱大数定律来边缘化特征向量的随机噪声进行求解。本专利技术的有益效果:采用去噪自编码器可以提高底层特征的表达能力,模态相关性约束有利于寻找不同模态数据之间最相关的特征,平台适应约束可以减小不同平台上的多媒体数据特征分布的差异。附图说明图1是本专利技术所述的跨平台多模态自编码器的示意图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本专利技术作进一步的详细说明。本专利技术假设两种模态数据分别是图像和文本,这两种模态数据又分布在两个社会媒体平台Google和Flickr。我们用和分别表示Google平台上的n1个媒体数据样本的图像和文本特征,用和分别表示Flickr平台上的n2个媒体数据样本的图像和文本特征,这里n2=n-n1,n表示媒体数据样本的个数,即图像特征和文本特征的个数之和。另外,我们用X=[Xs,Xt]和Y=[Ys,Yt]表示两个平台上结合起来的图像和文本特征。用和表示图像特征x和文本特征y的加了噪声以后的特征向量。是m个X组成的矩阵,是m个Y组成的矩阵,和是和加噪声以后的版本,m是加噪声的次数,所述加噪声是指随机选取矩阵中的一部分元素将其变成0。本专利技术的目标是提出了一种利用去噪自编码器学习跨平台多模态媒体数据共同特征表示的方法所述方法包括三个部分:1)建立优化目标方程,2)求得解析解,3)边缘化的快速求解。具体来说,所述方法包括以下步骤:步骤S1,建立优化目标方程。为了学习不同平台媒体数据的共同特征表示,我们首先采用单层的去噪自编码器(denoisingauto-encoder)来重建输入特征。在单层去噪自编码器中,输入数据用一个线性映射矩阵映射到输出层,输出是对加噪声以后的输入数据的重建。我们分别用Wx和Wy表示图像和文本对应的去噪自编码器的线性映射矩阵,该线性映射矩阵用于将图像和文本特征向量映射到映射到同一个特征向量空间,进而使得不同平台上的数据之间没有了平台差异。此外我们用和分别表示两种模态数据的重建目标方程,即对图像和文本特征向量的重建误差,用和表示模态相关性约束和跨平台约束,即不同平台上的数据之间的差异,以及不同模态数据之间的语义差异。最终的优化目标方程可以表示为:这里λx,λy,λmc和λcd都表示正则化参数。与传统只考虑一种模态数据的去噪自编码器不同,在(1)式中我们不仅分别考虑了图像和文本两种模态数据的重建目标方程和还加入了模态相关性约束和跨平台约束通过求解(1)式,我们就可以把图像和文本两种不同模态的数据映射到模态相关性最大化以及平台差异最小化后的特征空间中。(1)式中的图像数据和文本数据的重建目标方程分别定义如下:其中,Tr表示矩阵的迹。对每种模态的媒体数据来说,Flickr和Google平台上的样本被结合起来构造重建方程。这样得到的特征表示就可以减小同一种模态的数据在不同平台上的分布差异。为了考虑不同模态数据之间的相关性,借助于典型相关性分析(CCA),我们在重建图像和文本数据的同时最大化两种模态之间的相关性,我们把定义为:这里表示图像数据的方差矩阵,表示文本数据的方差矩阵,是图像和文本数据之间的协方差矩阵。为了考虑不同平台上的媒体数据差异,我们借助于最大化均值差异(MMD)来减小不同平台上的媒体数据差异。具体来说,定义如下:其中,n1和n2分别表示不同平台上的媒体数据特征的个数。步骤S2,求得解析解。步骤1中所述的和四个表达式所表示的函数都是凸的,因此(1)式表示的是一个凸二次规划问题。这个二次规划问题的全局最优解可通过寻找偏导数为零的点得到。关于Wx的偏导数可以计算为:这里并且类似地,我们可以得到关于Wy的偏导:这里并且通过求解方程组当Qx和都可逆的时候,我们得到Wx和Wy的解析解:在实际应用中,Qx和通常都是可逆的。如果它们不可逆,我们用伪逆来得本文档来自技高网
...
学习跨平台多模态媒体数据共同特征表示的方法及装置

【技术保护点】
一种利用去噪自编码器学习跨平台多模态媒体数据共同特征表示的方法,其特征在于,该方法包括以下步骤:步骤S1,建立优化目标方程;目标方程中,采用单层的去噪自编码器来重建不同平台和不同模态的媒体数据特征,在重建时,考虑模态相关性约束和跨平台约束;其中,所述不同平台和不同模态的媒体数据特征包括图像特征和文本特征;步骤S2,求得所述优化目标方程的解析解,在求解析解过程中,通过寻找偏导数为零的点得到全局最优解;步骤S3,利用边缘化方法对所得到的解析解进行求解,其中求解过程中通过弱大数定律来边缘化特征向量的随机噪声进行求解。

【技术特征摘要】
1.一种利用去噪自编码器学习跨平台多模态媒体数据共同特征表示的方法,其特征在于,该方法包括以下步骤:步骤S1,建立优化目标方程;目标方程中,采用单层的去噪自编码器来重建不同平台和不同模态的媒体数据特征,在重建时,考虑模态相关性约束和跨平台约束;其中,所述不同平台和不同模态的媒体数据特征包括图像特征和文本特征;步骤S2,求得所述优化目标方程的解析解,在求解析解过程中,通过寻找偏导数为零的点得到全局最优解;步骤S3,利用边缘化方法对所得到的解析解进行求解,其中求解过程中通过弱大数定律来边缘化特征向量的随机噪声进行求解;其中,步骤S1中的优化目标方程是采用去噪自编码器构造的,所构造的优化目标方程可以表示为:其中,λx,λy,λmc和λcd都表示正则化参数;Wx和Wy表示图像特征和文本特征对应的去噪自编码器的线性映射矩阵;和分别表示图像特征和文本特征的重建目标方程,和表示模态相关性约束和跨平台约束;其中,分别定义如下:其中,m表示加噪声的次数,n表示媒体数据特征向量的个数,是m个X组成的矩阵,是m个Y组成的矩阵,X=[Xs,Xt]和Y=[Ys,Yt]表示两个不同平台上结合起来的图像特征矩阵和文本特征矩阵,且X=[Xs,Xt]和Y=[Ys,Yt]还可以表示成X={xi|i=1,...,n},Y={yi|i=1,...,n},和是和加噪声以后的版本,xi是矩阵X的第i列的特征向量,为的第i*n+j列元素,yi是矩阵Y的第i列的特征向量;定义如下:其中,表示图像特征的方差矩阵,表示文本特征的方差矩阵,是图像特征和文本特征之间的协方差矩阵,Tr表示矩阵的迹;定义如下:其中,n1和n2分别表示不同平台上的媒体数据特征的个数。2.根据权利要求1所述的方法,其特征在于,步骤S2中通过寻找优化目标方程的偏导数为零的点得到全局最优解,具体包括:关于Wx的偏导数可以计算为:其中,代表和并且关于Wy的偏导:其中,并且通过求解方程组当Qx和都可逆的时候,得到Wx和Wy的解析解:当Qx和不可逆时,用伪逆来得到近似解。3.根据权利要求2所述的方法,其特征在于,步骤S3具体包括:假设p表示对特征向量上每个元素被噪声改变的概率;假设则得到Cxx和的边缘化后的解:E(Cxx)和中的α行β列的元素值可以直接表示为:其中,X=[Xs,Xt]表示两个不同平台上结合起来的图像特征矩阵,X={xi|i=1,...,n},xi是X中的第i列的特征向量;是对xi加噪声后的特征向量;E[]表示求期望;Sαβ为S中的α行β列元素值;假设则得到Cyy和的边缘化后的解:E(Cyy)和中的α行β列的元素值可以...

【专利技术属性】
技术研发人员:徐常胜杨小汕张天柱
申请(专利权)人:中国科学院自动化研究所
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1