A multi-modal representation method of pin on social curatorial network involves the fields of Intelligent Media Computing and large data analysis technology. For a given acquisition, the image is pre-processed by image scaling and image clipping; input to a convolutional neural network (CNN) trained on an automatically annotated image data set, after the forward propagation of CNN, extract the activation value of the middle layer as the image representation; each word in the acquisition description is completed by a corpus. The word 2vec of training is mapped to word vectors, and all word vectors are pooled to get text representation; the image and text expressions are input into a multi-modal depth Boltzmann machine which completes training together, and the inferred top activation probability will be used as the joint representation of the collected multi-modals; the present invention combines picture and text. The data fusion of different modes forms a unified representation space, and reasonably handles the missing value problem. It is a very effective method for acquisition of multi-modal joint representation.
【技术实现步骤摘要】
一种社交策展网络上采集(Pin)的多模态表示方法
本专利技术涉及智能媒体计算和大数据分析
,特别是涉及一种社交策展网络上采集(Pin)的多模态表示方法。具体涉及一种利用图片、文本等多模态信息表示社交策展网络中采集的方法。
技术介绍
伴随着社交网络(Facebook、Twitter、微博等)的盛行,社会化网络引入了用户更多的社交行为数据以及社会成员之间关系和交互行为信息。近年来,许多社交网站加入了“策展”功能,“策展”即策划、筛选并展示,社交策展网络允许用户对其网络中展示的物品进行收集、分类、分享、点赞、评论、打分、关注等操作(如图1所示),让用户自主的信息进行重分配,使得用户自主表达自己的爱好。社交策展网络与传统网络相比,加重了与用户之间的互动,用户表达方式更加丰富多样。不同于传统社交网络——如基于信息分享的微博、Twitter,基于用户间社交关系的Facebook等,社交策展网络是一种由用户的兴趣点驱动,基于用户对网络中所展示的物品的兴趣建立而成的社交网络。对Pinterest、花瓣网这样的基于用户兴趣的策展网络的研究,成为了近年来的热点之一。与传统社交网络不同的是,在社交策展网络中,只存在少量基本的用户信息,用户与网站展示的物品之间的互动则占据了主导地位。采集(Pin)是策展网络中最基本的物品单位,由一张图片和一段由用户给出的与图片对应的文本描述这两种不同模态的信息组成。用户可以将他感兴趣的采集整理重组,保存到不同的画板(Board)中,如图1所示。这意味着用一个用户的兴趣可由他拥有的所有画板来表示,而画板又可以由画板中包含的所有采集(Pin)来 ...
【技术保护点】
1.一种社交策展网络上采集(Pin)的多模态表示方法,其特征在于,包括以下步骤:对于给定采集,图像经图像缩放、图像裁剪预处理后;输入到一个在自动标注的图像数据集上训练的卷积神经网络CNN中,CNN的前向传播完成后,提取全连接层2激活值作为图像表示;采集描述中的每个词由一个在语料库上完成训练的word2vec映射为词向量,所有词向量经池化后得到文本表示;图像及文本表示两种模态的表示一同输入到一个完成训练的多模态深度玻尔兹曼机DBM中,推断的顶层激活概率将作为采集的多模态联合表示;CNN包括5个卷积层和3个全连接层,结构如下:卷积层1:输入227*227*3,卷积核11*11*3卷积层2:输入27*27*96,卷积核5*5*48卷积层3:输入13*13*256,卷积核3*3*256卷积层4:输入13*13*384,卷积核3*3*192卷积层5:输入13*13*384,卷积核3*3*192全连接层1:输入6*6*256,输出4096全连接层2:输入4096输出4096全连接层3:输入4096输出33。
【技术特征摘要】
1.一种社交策展网络上采集(Pin)的多模态表示方法,其特征在于,包括以下步骤:对于给定采集,图像经图像缩放、图像裁剪预处理后;输入到一个在自动标注的图像数据集上训练的卷积神经网络CNN中,CNN的前向传播完成后,提取全连接层2激活值作为图像表示;采集描述中的每个词由一个在语料库上完成训练的word2vec映射为词向量,所有词向量经池化后得到文本表示;图像及文本表示两种模态的表示一同输入到一个完成训练的多模态深度玻尔兹曼机DBM中,推断的顶层激活概率将作为采集的多模态联合表示;CNN包括5个卷积层和3个全连接层,结构如下:卷积层1:输入227*227*3,卷积核11*11*3卷积层2:输入27*27*96,卷积核5*5*48卷积层3:输入13*13*256,卷积核3*3*256卷积层4:输入13*13*384,卷积核3*3*192卷积层5:输入13*13*384,卷积核3*3*192全连接层1:输入6*6*256,输出4096全连接层2:输入4096输出4096全连接层3:输入4096输出33。2.根据权利要求1所述的方法,其特征在于,多模态联合表示具体为:多模态DBM的结构为在两个两层的DBM顶部添加一个共享的隐藏层,除了两个可见层,全部隐藏层均由二值单元构成;每个DBM视为由两个受限玻尔兹曼机层RBM叠相连而成;给定可见层V=(vi)∈{0,1}D,其中vi为层中第i个可见单元,D为层中可见单元的总数;给定隐藏层H=(hj)∈{0,1}F,其中hj为第j个隐藏单元,F为层中隐藏单元的总数;可见层及隐藏层共同定义了RBM的能量函数其中为模型参数,为实数集,wij为第i个可见单元与第j个隐藏单元间的对称交互项,ai、bj分别为第i个可见单元和第j个隐藏单元的偏置项;两层的联合分布服从玻尔兹曼分布,定义为其中后一因子为势函数,exp(x)=ex为自然常数为底的指数函数,Z(θ)为配分函数,又称归一化常数,由两层全部状态计算得到实际上联合分布相当于求取柔性最大;由于层内单元是条件独立的,由联合分布得到条件分布并因式分解后得到隐藏层的激活概率其中sigmoid(x)=1/(1+e-x)为S型函数,看出激活概率表达式与激活函数为S型函数的神...
【专利技术属性】
技术研发人员:毋立芳,张岱,杨博文,简萌,刘海英,祁铭超,贾婷,
申请(专利权)人:北京工业大学,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。