当前位置: 首页 > 专利查询>清华大学专利>正文

一种预测在线社交网络用户行为的方法技术

技术编号:13593720 阅读:46 留言:0更新日期:2016-08-26 06:59
本发明专利技术公开了一种预测在线社交网络用户行为的方法,包括步骤:根据社交网络的结构特点确定社区个数;对每条边进行Gibbs抽样,确定每条边所属的社区;根据抽样结果,确定每个节点所属的社区;确定可能影响用户行为的各种属性;根据用户各种属性的分布情况,划分用户的角色数目;根据用户属性,利用EM迭代的方式,为每个用户分配一个最可能的角色;根据用户所属的社区、用户所属的角色和所述用户所处社区和不同角色的用户发生某种行为的可能性计算所述用户做出某个行为的可能性。本发明专利技术具有如下优点:充分挖掘社交网络的潜在信息,对用户行为预测的精度高。

【技术实现步骤摘要】

本专利技术涉及在线社交网络
,具体涉及一种预测在线社交网络用户行为的方法
技术介绍
在线社交网络已经深入人们生活的方方面面,在很大程度上改变了人们的生产和生活方式。许多在线社交网络(比如Facebook、Twitter等)涉及面广、影响范围大、并且在近年中发展迅速。世界各国的人们利用社交网络进行通信、购物、娱乐等。有效预测在线社交网络用户行为可以为在线广告和推荐系统提供技术支撑,具有广泛的应用领域。比如某些购物网站,如果可以预测出用户下一步将要购买什么类型的商品,就可以针对这个用户做定向广告投放,向他/她推荐这个类型的商品。另外,对于在线课程网站(比如MOOC),如果能够预测出某个用户在下个学期将会选择哪个方面的课程,就可以针对这个用户推荐相关主题的课程,以方便用户选择。当前,预测用户行为的方法主要集中在以下几个方面。第一种是利用用户属性来对用户行为进行预测。利用用户结构属性信息,来预测用户行为的。其首先利用领域知识定义可能对用户行为有影响的各种结构属性(比如用户节点的度),然后根据这些属性来赋予用户一个角色。该方法假定不同角色的用户行为习惯不同,因此可以根据用户分配的角色来计算用户行为的可能性,继而预测用户行为。第二种是利用用户间影响力来对用户行为进行预测。比将用户的“邻居”以及用户所在的社区对用户的影响力进行量化,然后建立一个因子图模型,根据已有数据算出各种影响力因子的权重,并利用权重值去预测用户未来的行为。这些方法的一个共同的不足之处在于只利用了部分信息来对用户行为进行建模和预测,没有充分挖掘社交网络的潜在信息。
技术实现思路
本专利技术旨在至少解决上述技术问题之一。为此,本专利技术的一个目的在于提出一种预测在线社交网络用户行为的方法。为了实现上述目的,本专利技术的实施例公开了一种预测在线社交网络用户行为的方法,所述方法的输入为社交网络G=(V,E,A),所述方法的输出为用户行为概率矩阵P=[pi,j]|V|×|A|,其中,V是社交网络的节点,E是节点之间的边,A是用户的历史行为记录,|V|是用户节点数,|A|是行为空间的大小,pi,j是每个用户做出每个行为的概率,满足所述方法包括以下步骤:S1:根据社交网络的结构特点确定社区个数;S2:对每条边进行Gibbs抽样,确定每条边所属的社区;S3:根据抽样结果,确定每个节点所属的社区;S4:确定可能影响用户行为的各种属性;S5:根据用户各种属性的分布情况,划分用户的角色数目;S6:根据用户属性,利用EM迭代的方式,为每个用户分配一个最可能的角色;S7:计算某个用户所处社区和不同角色的用户发生某种行为的可能性;以及S8:根据节点所属的社区、用户所属的角色和所述用户所处社区和不同角色的用户发生某种行为的可能性计算所述用户做出某个行为的可能性pi,j。根据本专利技术实施例的预测在线社交网络用户行为的方法,充分挖掘社交网络的潜在信息,对用户行为预测的精度高。另外,根据本专利技术上述实施例的预测在线社交网络用户行为的方法,还可以具有如下附加的技术特征:进一步地,在步骤S1中,根据以下公式确定社区个数:L(E)=Σi=1|E|lnp(ei)]]>其中,E表示全体边的集合,ei表示某一条边,p(ei)表示每条边的生成概率,L(E)表示所述社交网络中所有边的联合概率的对数。进一步地,步骤S2进一步包括:S201:随机为每条边分配一个社区;S202:对每条边进行Gibbs抽样,按照以下公式抽样所属社区:p(zv,i=c|z-v,-i,E)∝R-v,-i,c(v)+β|Ev|+|C|βn-v,-i,c(e)+αn-v,-i,·(e)+|E|α]]>其中,v和i分别表示节点和边的序数,zv,i表示第v个用户和第i条边的所属社区,C表示社区集合,c表示某个社区,n表示边的个数,|˙|表示基数,β和α分别为节点对社区的多项分布和社区对边的多项分布的狄利克雷先验。进一步地,在步骤S3中,根据以下公式确定每个节点所属的社区:其中,表示节点v属于社区c的可能性。进一步地,在步骤S4中,选取节点的度、邻接三角形、用户发文年份和用户发文数量作为用户属性。进一步地,步骤S5进一步包括:S501:设定所述用户属性符合正态分布,每个分布都有其均值(μ)和标准差(σ);S502:通过以下公式计算用户所有属性的后验概率:L(X)=ΠvΠhΣrθv,r(2π)-1/2σr,h-1e-(xv,h-μr,h)22σr,h2]]>其中,θ表示用户对角色的多项分布,h表示属性的序数,r表示角色的序数,xv,h表示第v个用户的第h个属性的值,μr,h和σr,h分别表示第r个角色的第h个属性的均值和标准差,L(X)表示所有用户属性的后验概率。进一步地,在步骤S6中,所述EM迭代进一步包括:在E步,用以下公式计算每个用户属于某个角色的可能性:θv,r=Πh(2π)-1/2σr,h-1e-(xv,h-μr,h)22σr,h2ΣrΠh(2π)-1/2σr,h-1e-(xv,h-μr,h)22σr,h2;]]>在M步,用以下公式来更新属性的每个正态分布的均值和方差:μr,h=Σvθv,rxv,hΣvθv,r]]>σr,h2=Σvθv,r(xv,h-μr,h)2Σvθv,r]]>其中,θv,r表示节点v属于角色r的可能性。进一步地,在步骤S7中,利用下式计算出所处某个社区和某个角色的用户发生某种行为的可能性:ρτ,r,m=nτ,r,m+γ|A|+2|H|γ]]>其中,γ表示这个分布的狄利克雷先验,ρτ,r,m表示所属某个社区和某个角色的用户做出某个行为的可能性。进一步地,在步骤S8中,采用下式算出第i个用户做出第j个行为的可能性pi,j:本专利技术的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本专利技术的实践了解到。附图说明本专利技术的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:图1是本专利技术一个实施例的预测在线社交网络用户行为的方法的流程图。具体实施方式下面详细描述本专利技术的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本专利技术,而不能理解为对本专利技术的限制。参照下面的描述和附图,将清楚本专利技术的实施例的这些和其他方面。在这些描述和附图中,具体公开了本专利技术的实施例中的一些特定实施方式,来表示实施本专利技术的实施例的原理的一些方式,但是应当理解,本专利技术的实施例的范围不受此限制。相反,本专利技术的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。本专利拟解决的问题可以形式化地定义如下:输入:社本文档来自技高网...

【技术保护点】
一种预测在线社交网络用户行为的方法,其特征在于,所述方法的输入为社交网络G=(V,E,A),所述方法的输出为用户行为概率矩阵P=[pi,j]|V|×|A|,其中,V是社交网络的节点,E是节点之间的边,A是用户的历史行为记录,|V|是用户节点数,|A|是行为空间的大小,pi,j是每个用户做出每个行为的概率,满足所述方法包括以下步骤:S1:根据社交网络的结构特点确定社区个数;S2:对每条边进行Gibbs抽样,确定每条边所属的社区;S3:根据抽样结果,确定每个节点所属的社区;S4:确定可能影响用户行为的各种属性;S5:根据用户各种属性的分布情况,划分用户的角色数目;S6:根据用户属性,利用EM迭代的方式,为每个用户分配一个最可能的角色;S7:计算某个用户所处社区和不同角色的用户发生某种行为的可能性;以及S8:根据节点所属的社区、用户所属的角色和所述用户所处社区和不同角色的用户发生某种行为的可能性计算所述用户做出某个行为的可能性pi,j。

【技术特征摘要】
1.一种预测在线社交网络用户行为的方法,其特征在于,所述方法的输入为社交网络G=(V,E,A),所述方法的输出为用户行为概率矩阵P=[pi,j]|V|×|A|,其中,V是社交网络的节点,E是节点之间的边,A是用户的历史行为记录,|V|是用户节点数,|A|是行为空间的大小,pi,j是每个用户做出每个行为的概率,满足所述方法包括以下步骤:S1:根据社交网络的结构特点确定社区个数;S2:对每条边进行Gibbs抽样,确定每条边所属的社区;S3:根据抽样结果,确定每个节点所属的社区;S4:确定可能影响用户行为的各种属性;S5:根据用户各种属性的分布情况,划分用户的角色数目;S6:根据用户属性,利用EM迭代的方式,为每个用户分配一个最可能的角色;S7:计算某个用户所处社区和不同角色的用户发生某种行为的可能性;以及S8:根据节点所属的社区、用户所属的角色和所述用户所处社区和不同角色的用户发生某种行为的可能性计算所述用户做出某个行为的可能性pi,j。2.根据权利要求1所述的预测在线社交网络用户行为的方法,其特征在于,在步骤S1中,根据以下公式确定社区个数:L(E)=Σi=1|E|ln p(ei)]]>其中,E表示全体边的集合,ei表示某一条边,p(ei)表示每条边的生成概率,L(E)表示所述社交网络中所有边的联合概率的对数。3.根据权利要求2所述的预测在线社交网络用户行为的方法,其特征在于,步骤S2进一步包括:S201:随机为每条边分配一个社区;S202:对每条边进行Gibbs抽样,按照以下公式抽样所属社区:p(zv,i=c|z-v,-i,E)∝n-v,-i,c(v)+β|Ev|+|C|βn-v,-i,c(e)+αn-v,-i,·(e)+|E|α]]>其中,v和i分别表示节点和边的序数,zv,i表示第v个用户和第i条边的所属社区,C表示社区集合,c表示某个社区,n表示边的个数,|˙|表示基数,β和α分别为节点对社区的多项分布和社区对边的多项分布的狄利克雷先验。4.根据权利要求3所述的预测在线社交网络用户行为的方法,其特征在于,在步骤S3中,根据以下公式确定每个节点所属的社区:其中,表示节点v属于社区c的可能性。5.根据权利要求4所述的预测在线社交网络...

【专利技术属性】
技术研发人员:韩矞唐杰刘德兵
申请(专利权)人:清华大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1