学习跨平台多模态媒体数据共同特征表示的方法及装置制造方法及图纸

技术编号：10609493 阅读：163 留言：0更新日期：2014-11-05 18:42

本发明专利技术公开了一种利用去噪自编码器学习跨平台多模态媒体数据共同特征表示的方法及装置。所述方法包括：步骤S1，建立优化目标方程；目标方程中，采用单层的去噪自编码器来重建不同平台和不同模态的媒体数据特征，在重建时，考虑模态相关性约束和跨平台约束；其中，所述不同平台和不同模态的媒体数据特征包括图像特征和文本特征；步骤S2，求得所述优化目标方程的解析解，在求解析解过程中，通过寻找偏导数为零的点得到全局最优解；步骤S3，利用边缘化方法对所得到的解析解进行求解，其中求解过程中通过弱大数定律来边缘化特征向量的随机噪声进行求解。本发明专利技术借助弱大数定律来边缘化特征向量的随机噪声。

全部详细技术资料下载

【技术实现步骤摘要】
学习跨平台多模态媒体数据共同特征表示的方法及装置
本专利技术属于社会媒体(socialmedia)分析和跨媒体特征表示领域，具体涉及一种利用去噪自编码器学习跨平台多模态媒体数据共同特征表示的方法。
技术介绍
随着Web2.0的快速普及，越来越多的社会媒体网站(例如Flickr、YouTube、Facebook和Google)可供用户发布和共享信息。这使得发生在人们周围的事件以更快的速度被记录和传播并随之产生了大量不同模态的媒体数据，例如图像、文本和视频。据统计，在1分钟之内，有3125张图片被上传到Flickr，700K条消息在Facebook上被发送，2MM视频在YouTube上被浏览。用户上传的信息不仅规模巨大，而且以不同的模态存在于不同平台上。这些社会多媒体数据中存在着宝贵的信息，并且已经被用于大量的应用中。例如，实时社会媒体数据流(Twitter)被用于语义视频推荐、社会事件预测和图像标注。Flickr上的图片信息被成功地用于预测2008年美国总统选举、产品销售分部监控以及产品销售量预测。社会媒体图像中的人脸表情被用于监测总统选举中舆情信息。在社会媒体的各种应用中，关键的问题在于如何从大量媒体数据中抽取有效的特征。目前大部分的方法都是基于媒体的上下文信息，例如时间、位置和文本描述。这些描述性信息容易被抽取，但有大量的媒体数据并没有包含这些上下文信息，因此无法得到有效的特征表示。基于内容的社会媒体信息抽取可以解决这些问题。但基于内容的特征表示存在三个难点：(1)社会媒体数据具有多模态属性。例如社会媒体网站中的媒体样本通常同时被图像、文本表示。(2)社...
学习跨平台多模态媒体数据共同特征表示的方法及装置

【技术保护点】
一种利用去噪自编码器学习跨平台多模态媒体数据共同特征表示的方法，其特征在于，该方法包括以下步骤：步骤S1，建立优化目标方程；目标方程中，采用单层的去噪自编码器来重建不同平台和不同模态的媒体数据特征，在重建时，考虑模态相关性约束和跨平台约束；其中，所述不同平台和不同模态的媒体数据特征包括图像特征和文本特征；步骤S2，求得所述优化目标方程的解析解，在求解析解过程中，通过寻找偏导数为零的点得到全局最优解；步骤S3，利用边缘化方法对所得到的解析解进行求解，其中求解过程中通过弱大数定律来边缘化特征向量的随机噪声进行求解。

【技术特征摘要】
1.一种利用去噪自编码器学习跨平台多模态媒体数据共同特征表示的方法，其特征在于，该方法包括以下步骤：步骤S1，建立优化目标方程；目标方程中，采用单层的去噪自编码器来重建不同平台和不同模态的媒体数据特征，在重建时，考虑模态相关性约束和跨平台约束；其中，所述不同平台和不同模态的媒体数据特征包括图像特征和文本特征；步骤S2，求得所述优化目标方程的解析解，在求解析解过程中，通过寻找偏导数为零的点得到全局最优解；步骤S3，利用边缘化方法对所得到的解析解进行求解，其中求解过程中通过弱大数定律来边缘化特征向量的随机噪声进行求解；其中，步骤S1中的优化目标方程是采用去噪自编码器构造的，所构造的优化目标方程可以表示为：其中，λx，λy，λmc和λcd都表示正则化参数；Wx和Wy表示图像特征和文本特征对应的去噪自编码器的线性映射矩阵；和分别表示图像特征和文本特征的重建目标方程，和表示模态相关性约束和跨平台约束；其中，分别定义如下：其中，m表示加噪声的次数，n表示媒体数据特征向量的个数，是m个X组成的矩阵，是m个Y组成的矩阵，X＝[Xs,Xt]和Y＝[Ys,Yt]表示两个不同平台上结合起来的图像特征矩阵和文本特征矩阵，且X＝[Xs,Xt]和Y＝[Ys,Yt]还可以表示成X＝{xi|i＝1,...,n}，Y＝{yi|i＝1,...,n}，和是和加噪声以后的版本，xi是矩阵X的第i列的特征向量，为的第i*n+j列元素，yi是矩阵Y的第i列的特征向量；定义如下：其中，表示图像特征的方差矩阵，表示文本特征的方差矩阵，是图像特征和文本特征之间的协方差矩阵，Tr表示矩阵的迹；定义如下：其中，n1和n2分别表示不同平台上的媒体数据特征的个数。2.根据权利要求1所述的方法，其特征在于，步骤S2中通过寻找优化目标方程的偏导数为零的点得到全局最优解，具体包括：关于Wx的偏导数可以计算为：其中，代表和并且关于Wy的偏导：其中，并且通过求解方程组当Qx和都可逆的时候，得到Wx和Wy的解析解：当Qx和不可逆时，用伪逆来得到近似解。3.根据权利要求2所述的方法，其特征在于，步骤S3具体包括：假设p表示对特征向量上每个元素被噪声改变的概率；假设则得到Cxx和的边缘化后的解：E(Cxx)和中的α行β列的元素值可以直接表示为：其中，X＝[Xs,Xt]表示两个不同平台上结合起来的图像特征矩阵，X＝{xi|i＝1,...,n}，xi是X中的第i列的特征向量；是对xi加噪声后的特征向量；E[]表示求期望；Sαβ为S中的α行β列元素值；假设则得到Cyy和的边缘化后的解：E(Cyy)和中的α行β列的元素值可以...

【专利技术属性】
技术研发人员：徐常胜，杨小汕，张天柱，
申请(专利权)人：中国科学院自动化研究所，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人