一种社交策展网络上画板(Board)封面的个性化推荐算法制造技术

技术编号:19857673 阅读:70 留言:0更新日期:2018-12-22 11:44
一种社交策展网络上画板(Board)封面的个性化推荐算法涉及智能媒体计算和大数据分析技术领域。本发明专利技术基于社交策展网站花瓣网,利用了花瓣网中的多模态数据,设计了一种个性化的画板封面推荐算法,在对采集进行多模态表示后,通过聚类算法将采集向量进行无监督聚类,并选出最靠近模型聚类中心的采集作为画板的新封面。本发明专利技术的提出,填补了当前社交策展网络中的功能空缺。

【技术实现步骤摘要】
一种社交策展网络上画板(Board)封面的个性化推荐算法
本专利技术涉及智能媒体计算和大数据分析
,特别是涉及一种社交策展网络上画板(Board)封面的个性化推荐算法。具体涉及一种利用图片、文本等多模态信息对社交策展网络上的采集、画板自下而上逐一建模,最后为用户发布的画板个性化的推荐封面的算法。
技术介绍
随着Facebook、Twitter、微博等社交网络的盛行,社交网络在近年来越来越多的引入了更多的用户社交行为数据和社会成员之间关系来丰富自己的功能。近年来,许多社交网站加入了“策展”功能,“策展”意为策划、筛选并展示。社交策展网络允许用户对其网络中展示的物品进行收集、分类、分享、点赞、评论、打分、关注等操作(如图1所示),鼓励用户主动的将网站上的信息收集、整理,自主表达自己的爱好。社交策展网络与传统网络相比,更重视物品与用户之间的互动,用户表达方式更加丰富多样。不同于传统社交网络——如基于信息分享的微博、Twitter,基于用户间社交关系的Facebook等,社交策展网络是一种由用户的兴趣点驱动,基于用户对网络中所展示的物品的兴趣建立而成的社交网络。对Pinterest、花瓣网这样的社交策展网络的研究,成为了近年来的热点之一。与传统社交网络不同的是,在社交策展网络中,基本的用户信息只起到辅助作用,用户与网站展示的物品之间的互动则占据了主导地位。采集(Pin)是策展网络中最基本的物品单位,一个采集由包含一张图片和一段由用户给出的与图片对应的文本描述这两种不同模态的信息。画板(Board)作为一种社交策展网络中的中层物品单位,功能类似于相册,是收集采集的容器,用户可以将他感兴趣的采集整理重组,保存到不同的画板中,如图1所示。如图2所示,画板在页面中均是以三到四张略缩图封面的形式呈现的。一组精心设计过的缩略图封面,可以更好地代表画板中所有采集的主题,展现出画板中最精彩的部分,吸引其他用户来关注或喜欢画板,是决定画板是否成功、发布画板的用户是否能够成为热门用户的重要因素之一。但是,虽然社交策展网络提供了选择画板中的一张图片作为封面的功能,却未提供封面推荐功能。用户自己决定的封面,受到主观性、时效性等因素影响,往往并不能作为整个画板的精华,精准的展现画板的兴趣分布。以图2为例,顶部及中间为Pinterest上的四个画板缩略图,如果用户为画板选择了封面,则缩略图由封面及两个最近添加的采集构成,如果用户未设置封面,则缩略图由六个最近添加的采集构成;顶部两画板中的采集主题相似程度较高,表明该画板涉及的兴趣较窄,其缩略图容易出现重复信息;中间两画板兴趣较宽,除信息重复外,主要问题是难以用少量图片准确表示;底部为花瓣网上的两个画板缩略图,如果用户为画板选择了封面,则缩略图由封面及三个最近添加的采集构成,反之,则缩略图由四个最近添加的采集构成;底部靠左兴趣较窄的画板和底部靠右兴趣较宽的画板也分别存在与Pinterest上画板缩略图相同的问题。分析表明,当今热门社交策展网络的画板封面推荐算法逻辑较为简单直接,在大部分时候,并不能很好的作为画板的“门面”,体现作者在画板中表达的内容。在为用户推荐画板封面时,缺少一种个性化的推荐算法。本专利技术基于社交策展网站花瓣网,利用了花瓣网中的多模态数据,设计了一种个性化的画板封面推荐算法,在对采集进行多模态表示后,通过聚类算法将采集向量进行无监督聚类,并选出最靠近模型聚类中心的采集作为画板的新封面。本专利技术的提出,填补了当前社交策展网络中的功能空缺。
技术实现思路
本专利技术的目的是提供一种社交策展网络上画板(Board)封面的个性化推荐算法,如图3所示,算法流程包含以下步骤:1、采集(Pin)的多模态联合表示社交策展网络中,采集与画板存在明显的上下包含关系。本专利技术基于这种结构,先对构成画板的采集进行了多模态联合表示,再用画板中全部采集的多模态表示,构建画板模型。采集的多模态联合表示流程图如图4所示,其特征在于,包括以下步骤:1)、文本表示描述是采集中图片的重要内容补充,对于转采树中的不同采集,描述是区分其用户偏好的主要内容之一,优质的文本表示对于社交策展网络中的用户分析尤其是其个性化分析十分重要。本专利技术中将词向量的均值池化作为文本表示。对于文本T,其最终表示为其中MT为文本中词数,为词Wordi的向量表示。2)、图像表示图片是采集的核心内容,是社交策展网络中用户兴趣最主要的载体,社交策展网络中的图片表示不仅应该含有图片的本征信息,还应该能够与社交策展网络中的用户兴趣建立某种关系。综合考虑效率与性能,本专利技术选取CaffeNet作为图像表示学习的基础模型。CaffeNet最初是针对1000类互斥对象的多分类问题而设计的,相比出传统的Alexnet,CaffeNet没有使用主成分分析(PCA,principalcomponentanalysis)进行数据增强,并对调了池化层与归一化层的顺序。其损失层为softmaxwithlosslayer。本专利技术替换了CaffeNet的损失函数。调整后的损失函数为:其中NC为样本集合,为分类频数相应的sigmoid输出。本专利技术最终使用的模型参数细节如图5所示。3)、多模态融合本专利技术使用了多模态DBM来融合采集的图片与本文信息,其结构如图6所示,多模态DBM的结构为在两个两层的DBM顶部添加一个共享的隐藏层,除了两个可见层,全部隐藏层均由二值单元构成。每个DBM可以视为由两个RBM层叠相连而成。RBM是一种无向二部图模型,也就是说,可见层与隐藏层的层内无连接、层间双向全连接。本专利技术多模态DBM的联合分布为(3)其中θ为全部模型参数,VI、VT、HI1、HT1、HI2、HT2、H3分别为图6中相应层。2、采集多模态表示聚类在得到采集的多模态表示后,本专利技术使用高斯混合模型(GMM)的最大期望(EM)聚类算法对采集向量进行无监督聚类。将采集分成几个主题相近的簇后,再从中选出推荐候选。EM聚类算法流程包含以下步骤:(1)选择簇的数量。在花瓣网中,每个画板均有三个封面展示位,即需要产生三个不重复的封面推荐结果。因此,这里将簇的数量设置为3。随后,随机初始化每个簇的高斯分布参数(均值和方差)。(2)给定每个簇的高斯分布,计算每个数据点属于每个簇的概率。一个点越靠近高斯分布的中心就越可能属于该簇。(3)基于高斯分布概率计算高斯分布参数,使得数据点的概率最大化。(4)重复步骤(2)(3)直到迭代收敛,每个采集的概率不再发生变化。3、画板封面推荐在得到画板的多模态建模后,封面推荐算法将计算画板中的所有采集表示与全部采集表示构成的中心点的距离,其计算公式如下其中Vcen为前一步中得到的画板的聚类中心向量,Vp为采集的多模态向量表示,n为多模态表示向量的维度,i代表向量第i维的取值。求出画板中每一个采集与画板中心的距离后,由于每个画板有三个封面位置,故本专利技术将距离画板模型中心最近的三个采集的图片作为推荐封面,并在用户设置封面时进行推荐或定期为画板更新。附图说明图1为社交策展网络中的多级用户关系示意图;图2为社交策展网络中的画板样例;图3为本专利技术的算法流程图;图4为本专利技术中所使用采集的多模态联合表示方法流程图;图5为本专利技术用于提取图片表示所使用的CNN结构图;图6为本专利技术的推本文档来自技高网
...

【技术保护点】
1.一种社交策展网络上画板(Board)封面的个性化推荐算法,其特征在于,包括如下步骤:一、采集(Pin)的多模态联合表示社交策展网络中,采集与画板存在明显的上下包含关系;基于这种结构,先对构成画板的采集进行了多模态联合表示,再用画板中全部采集的多模态表示,构建画板模型,具体包括以下步骤:1)、文本表示将词向量的均值池化作为文本表示;对于文本T,其最终表示为

【技术特征摘要】
1.一种社交策展网络上画板(Board)封面的个性化推荐算法,其特征在于,包括如下步骤:一、采集(Pin)的多模态联合表示社交策展网络中,采集与画板存在明显的上下包含关系;基于这种结构,先对构成画板的采集进行了多模态联合表示,再用画板中全部采集的多模态表示,构建画板模型,具体包括以下步骤:1)、文本表示将词向量的均值池化作为文本表示;对于文本T,其最终表示为其中MT为文本中词数,为词Wordi的向量表示;2)、图像表示选取CaffeNet作为图像表示学习的基础模型,并且替换了CaffeNet的损失函数;调整后的损失函数为:其中NC为样本集合,为分类频数相应的sigmoid输出;3)、多模态融合多模态DBM的结构为在两个两层的DBM顶部添加一个共享的隐藏层,除了两个可见层,全部隐藏层均由二值单元构成;每个DBM视为由两个RBM层叠相连而成;RBM是一种无向二部图模型,也就是说,可见层与隐藏层的层内无连接、层间双向全连接;多模态DBM的联合分布为其中θ为全部模型参数,VI、HI1、HI2分别为图像通路的可见层、第一隐藏层、第二隐藏层,VT、HT1、HT2分别为文本通路的可见层、第一隐藏层、第二隐藏层,H3为顶部隐藏层;二、采集多模态表示聚类在得到采集的多模态表示后,使用高斯混合模型的最大期望EM聚类算法对采集向量进行无监督聚类;将采集分成几个主题相近的簇后,再从中选出推荐候选;EM聚类算法流程包含以下步骤:(1)...

【专利技术属性】
技术研发人员:毋立芳杨博文张岱简萌刘海英张恒李丰
申请(专利权)人:北京工业大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1