一种社交策展网络上采集(Pin)的多模态表示方法技术

技术编号:19550049 阅读:70 留言:0更新日期:2018-11-24 21:42
一种社交策展网络上采集(Pin)的多模态表示方法涉及智能媒体计算和大数据分析技术领域。对于给定采集,其图片经图像缩放、图像裁剪等预处理后;输入到一个在自动标注的图像数据集上训练的卷积神经网络(CNN)中,CNN的前向传播完成后,提取中间层激活值作为图像表示;采集描述中的每个词由一个在语料库上完成训练的word2vec映射为词向量,所有词向量经池化后得到文本表示;图像及文本表示两种模态的表示一同输入到一个完成训练的多模态深度玻尔兹曼机中,推断的顶层激活概率将作为采集的多模态联合表示;本发明专利技术将图片、文本两种不同模态的数据融合形成了统一的表示空间,并合理地处理了缺失值问题,是十分有效的采集多模态联合表示方法。

A Multimodal Representation Method of Collection (Pin) on Social Curatorial Network

A multi-modal representation method of pin on social curatorial network involves the fields of Intelligent Media Computing and large data analysis technology. For a given acquisition, the image is pre-processed by image scaling and image clipping; input to a convolutional neural network (CNN) trained on an automatically annotated image data set, after the forward propagation of CNN, extract the activation value of the middle layer as the image representation; each word in the acquisition description is completed by a corpus. The word 2vec of training is mapped to word vectors, and all word vectors are pooled to get text representation; the image and text expressions are input into a multi-modal depth Boltzmann machine which completes training together, and the inferred top activation probability will be used as the joint representation of the collected multi-modals; the present invention combines picture and text. The data fusion of different modes forms a unified representation space, and reasonably handles the missing value problem. It is a very effective method for acquisition of multi-modal joint representation.

【技术实现步骤摘要】
一种社交策展网络上采集(Pin)的多模态表示方法
本专利技术涉及智能媒体计算和大数据分析
,特别是涉及一种社交策展网络上采集(Pin)的多模态表示方法。具体涉及一种利用图片、文本等多模态信息表示社交策展网络中采集的方法。
技术介绍
伴随着社交网络(Facebook、Twitter、微博等)的盛行,社会化网络引入了用户更多的社交行为数据以及社会成员之间关系和交互行为信息。近年来,许多社交网站加入了“策展”功能,“策展”即策划、筛选并展示,社交策展网络允许用户对其网络中展示的物品进行收集、分类、分享、点赞、评论、打分、关注等操作(如图1所示),让用户自主的信息进行重分配,使得用户自主表达自己的爱好。社交策展网络与传统网络相比,加重了与用户之间的互动,用户表达方式更加丰富多样。不同于传统社交网络——如基于信息分享的微博、Twitter,基于用户间社交关系的Facebook等,社交策展网络是一种由用户的兴趣点驱动,基于用户对网络中所展示的物品的兴趣建立而成的社交网络。对Pinterest、花瓣网这样的基于用户兴趣的策展网络的研究,成为了近年来的热点之一。与传统社交网络不同的是,在社交策展网络中,只存在少量基本的用户信息,用户与网站展示的物品之间的互动则占据了主导地位。采集(Pin)是策展网络中最基本的物品单位,由一张图片和一段由用户给出的与图片对应的文本描述这两种不同模态的信息组成。用户可以将他感兴趣的采集整理重组,保存到不同的画板(Board)中,如图1所示。这意味着用一个用户的兴趣可由他拥有的所有画板来表示,而画板又可以由画板中包含的所有采集(Pin)来表示,即基于采集表示可以完整的表达社交策展网络中不同的其他节点。因此,找到一种有效的采集的多模态表示方法,对社交策展网络中的用户建模、个性化推荐等领域的研究都具有重大的意义。近年来基于多模态的相关研究主要面向跨模态检索和基于多模态数据分类,最终得到检索或分类结果,很难得到两种模态数据的联合表示,无法形成一个统一的表达空间,表达能力受限。而且这些应用均在一个固定数据库上进行,拥有完整的两模态数据,文本图像数据一一对应。但由于互联网上数据缺失问题,20-30%的采集存在文本数据缺失的现象,这使得现有的多模态相关研究很难用于社交策展网络中的采集表示。另外,社交策展网络中天然具有的转采功能,使得不同用户可以根据用户偏好给同一个图像(采集最重要的组成部分)不同的分类标签,因此难以建议可用于学习的有标签的数据集,这种由用户转采产生的现象,也是传统方法难以奏效的原因之一。以上种种原因,使得现有方案对社交策展网络中的采集的表达能力有限。本专利技术基于社交策展网站花瓣网,充分利用了花瓣网中的多模态数据,并合理的处理了缺失值问题,将图片、文本两种不同模态的数据融合形成了统一的表达空间,得出了一种对于社交策展网络来说十分有效的采集多模态联合表示方法。
技术实现思路
本专利技术的目的是提供一种社交策展网络上采集的多模态表示方法(其框架如图1所示)。1.一种基于多模态数据的采集(Pin)表示方法,其特征在于,包括以下步骤:1)、采集(Pin)多模态联合表示学习框架的构建基于深度学习的采集多模态联合表示学习框架如图2所示。整个学习过程可分为三大部分:图像表示、文本表示和多模态融合。对于给定采集,其图片经预处理后,输入到一个已在自动标注过的图像数据集上完成微调的卷积神经网络(CNN)中,CNN的前向传播完成后,提取指定的中间层激活值作为图像表示;其描述经预处理后,描述中的每个词由一个在语料库上完成训练的word2vec映射为词向量,所有词向量经池化后得到文本表示;两种模态的表示一同输入到一个完成训练的多模态深度玻尔兹曼机(DBM,deepBoltzmannmachines)中,推断的顶层激活概率将作为采集的多模态联合表示。2)、图像表示图片是采集的核心内容,是社交策展网络中用户兴趣最主要的载体,优质的图像表示对于在社交策展网络中进行用户分析大有裨益。社交策展网络中的图片表示不仅应该含有图片的本征信息,还应该能够与社交策展网络中的用户兴趣建立某种关系。综合考虑效率与性能,本专利技术选取在ImageNet上训练过的AlexNet作为图像表示学习的基础模型。微调AlexNet的关键是建立一个大规模高质量的数据集,本专利技术将社交策展网络上对于同一图片的转采关系以树形结构表示,称为转采树。统计一个图片被转采树上所有用户分到不同分类中的频率,用所有分类频率作为多维实数标签。花瓣网总计有33个分类,一张图片被分到第i个分类Ci中的分类频率为该图片的标签由33个分类频率共同构成。AlexNet最初是针对1000类互斥对象的多分类问题而设计的,其损失层为柔性最大(softmax)对数损失层。由于标签的性质与学习的目标与原模型不同,需将损失层替换为S型函数(sigmoid)交叉熵(crossentropy)损失层,其损失函数为:其中NC为样本集合,为分类频率相应的S型函数输出。3)、文本表示描述是采集中图片的重要内容补充,对于转采树中的不同采集,描述是区分其用户偏好的主要内容之一,优质的文本表示对于社交策展网络中的用户分析尤其是其个性化分析十分重要。与图像表示一样,文本表示也隐含与社交策展网络中用户兴趣的关系。本专利技术中将词向量的均值池化作为文本表示。对于文本T,其最终表示为其中MT为文本中词数,为词Wordi的向量表示。4)、多模态融合本专利技术使用了多模态DBM来融合采集的图片与本文信息,其结构如图3所示,多模态DBM的结构为在两个两层的DBM顶部添加一个共享的隐藏层,除了两个可见层,全部隐藏层均由二值单元构成。每个DBM可以视为由两个受限玻尔兹曼机(RBM,restrictedboltzmannmachine)层叠相连而成。RBM是一种无向二部图模型,也就是说,可见层与隐藏层的层内无连接、层间双向全连接。RBM是基于能量的模型。给定可见层V=(vi)∈{0,1}D,其中vi为层中第i个可见单元,D为层中可见单元的总数。给定隐藏层H=(hj)∈{0,1}F,其中hj为第j个隐藏单元,F为层中隐藏单元的总数。可见层及隐藏层共同定义了能量函数其中为模型参数,为实数集,wij为第i个可见单元与第j个隐藏单元间的对称交互项,ai、bj分别为第i个可见单元和第j个隐藏单元的偏置项。两层的联合分布服从玻尔兹曼分布,定义为其中后一因子为势函数,exp(x)=ex为自然常数为底的指数函数,Z(θ)为配分函数,又称归一化常数,可由两层全部状态计算得到实际上联合分布相当于求取柔性最大。由于层内单元是条件独立的,可以由联合分布得到条件分布并因式分解后得到隐藏层的激活概率其中sigmoid(x)=1/(1+e-x)为S型函数,可以看出激活概率表达式与激活函数为S型函数的神经网络神经元相同。可见层的激活概率求解和表达式也一样。RBM的参数优化目标是最大化对数似然函数,其实质是使当前输入分布的概率最大(常加上正则化项),对数似然函数的导数为数据相关分布期望与模型分布期望的差,可以解释为可见层激活概率与输入误差最小。由于本专利技术的多模态表示均为实值向量,底层需变更为RBM的变种之一——Gaussian-BernoulliRBM。由可见层(v本文档来自技高网
...

【技术保护点】
1.一种社交策展网络上采集(Pin)的多模态表示方法,其特征在于,包括以下步骤:对于给定采集,图像经图像缩放、图像裁剪预处理后;输入到一个在自动标注的图像数据集上训练的卷积神经网络CNN中,CNN的前向传播完成后,提取全连接层2激活值作为图像表示;采集描述中的每个词由一个在语料库上完成训练的word2vec映射为词向量,所有词向量经池化后得到文本表示;图像及文本表示两种模态的表示一同输入到一个完成训练的多模态深度玻尔兹曼机DBM中,推断的顶层激活概率将作为采集的多模态联合表示;CNN包括5个卷积层和3个全连接层,结构如下:卷积层1:输入227*227*3,卷积核11*11*3卷积层2:输入27*27*96,卷积核5*5*48卷积层3:输入13*13*256,卷积核3*3*256卷积层4:输入13*13*384,卷积核3*3*192卷积层5:输入13*13*384,卷积核3*3*192全连接层1:输入6*6*256,输出4096全连接层2:输入4096输出4096全连接层3:输入4096输出33。

【技术特征摘要】
1.一种社交策展网络上采集(Pin)的多模态表示方法,其特征在于,包括以下步骤:对于给定采集,图像经图像缩放、图像裁剪预处理后;输入到一个在自动标注的图像数据集上训练的卷积神经网络CNN中,CNN的前向传播完成后,提取全连接层2激活值作为图像表示;采集描述中的每个词由一个在语料库上完成训练的word2vec映射为词向量,所有词向量经池化后得到文本表示;图像及文本表示两种模态的表示一同输入到一个完成训练的多模态深度玻尔兹曼机DBM中,推断的顶层激活概率将作为采集的多模态联合表示;CNN包括5个卷积层和3个全连接层,结构如下:卷积层1:输入227*227*3,卷积核11*11*3卷积层2:输入27*27*96,卷积核5*5*48卷积层3:输入13*13*256,卷积核3*3*256卷积层4:输入13*13*384,卷积核3*3*192卷积层5:输入13*13*384,卷积核3*3*192全连接层1:输入6*6*256,输出4096全连接层2:输入4096输出4096全连接层3:输入4096输出33。2.根据权利要求1所述的方法,其特征在于,多模态联合表示具体为:多模态DBM的结构为在两个两层的DBM顶部添加一个共享的隐藏层,除了两个可见层,全部隐藏层均由二值单元构成;每个DBM视为由两个受限玻尔兹曼机层RBM叠相连而成;给定可见层V=(vi)∈{0,1}D,其中vi为层中第i个可见单元,D为层中可见单元的总数;给定隐藏层H=(hj)∈{0,1}F,其中hj为第j个隐藏单元,F为层中隐藏单元的总数;可见层及隐藏层共同定义了RBM的能量函数其中为模型参数,为实数集,wij为第i个可见单元与第j个隐藏单元间的对称交互项,ai、bj分别为第i个可见单元和第j个隐藏单元的偏置项;两层的联合分布服从玻尔兹曼分布,定义为其中后一因子为势函数,exp(x)=ex为自然常数为底的指数函数,Z(θ)为配分函数,又称归一化常数,由两层全部状态计算得到实际上联合分布相当于求取柔性最大;由于层内单元是条件独立的,由联合分布得到条件分布并因式分解后得到隐藏层的激活概率其中sigmoid(x)=1/(1+e-x)为S型函数,看出激活概率表达式与激活函数为S型函数的神...

【专利技术属性】
技术研发人员:毋立芳张岱杨博文简萌刘海英祁铭超贾婷
申请(专利权)人:北京工业大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1