当前位置: 首页 > 专利查询>东南大学专利>正文

对齐异构社交网络中基于元路径的链路预测方法技术

技术编号:16175712 阅读:20 留言:0更新日期:2017-09-09 02:56
本发明专利技术公开了一种对齐异构社交网络中基于元路径的链路预测方法,主要解决对齐异构社交网络中的链路预测问题(主要包括好友关系预测和位置预测),涉及到对齐异构社交网络、特征选择、链路预测等相关技术。该方法主要包括六个步骤:(a)对齐异构社交网络建模;(b)元路径的自动化提取;(c)定义基于元路径的特征值计算方法;(d)按时间戳划分数据集;(e)提出一种两阶段逐步向前贪心特征选择算法进行特征选择;(f)基于特征选择的结果训练决策树分类器进行链路预测。基于此,本发明专利技术对Foursquare和Twitter组成的对齐异构社交网络进行链路预测,对社交网络中的实体推荐、精准营销及犯罪团伙发现等具有实际应用价值。

【技术实现步骤摘要】
对齐异构社交网络中基于元路径的链路预测方法
本专利技术是一种异构社交网络中基于元路径的链路预测方法,利用了特征选择、链路预测等相关技术,涉及社会计算特别是链路预测领域。
技术介绍
首先对本专利技术中涉及到的相关概念进行定义:异构社交网络(heterogeneoussocialnetwork):给定社交网络N=(V,E),其中V=Vuser∪Vnon-user表示节点集合,包含用户集合Vuser和非用户节点集合Vnon-user,E=Euser,user∪Euser,non-user∪Enon-user,non-user}是用户节点之间、用户与非用户节点以及非用户节点之间的边集合,则称N为一个异构社交网络;锚链路(anchorlink):给定两个异构社交网络Ni、Nj以及两个账号和即和分别属于两个不同异构社交网络的用户节点集合,若和在现实中为同一个用户,则称和存在锚链路,记作Ni、Nj之间的锚链路集合记作对齐异构社交网络(alignedheterogeneoussocialnetwork):给定两个异构社交网络Ni、Nj,若Ni和Nj的用户集合和之间至少存在一条锚链路,则称Ni和Nj组成对齐异构社交网络记作其中A为锚链路集合。网络模式(networkschema):网络模式是对实际社交网络的抽象,形式化表示为TN=(S,R),其中R表示网络中的节点类型集合,S表示网络中的变类型集合。元路径(metapath):元路径是定义在网络模式中的路径,给定一个网络模式TN=(S,R),形如的路径称为元路径,其中Si∈S(i=1,...,l+1),Rj∈R(j=1,...,l+1);实例路径(instancepath):给定元路径当网络中两个节点v1和vl+1之间存在路径且对于所有节点vi∈Si,所有关系ri∈Ri,则称路径p为元路径P的一个实例路径。对齐异构社交网络的链路预测(LinkPredictioninAlignedHeterogeneousSocialNetworks):给定对齐异构社交网络记v=Vi∪Vj,其中Vi和Vj分别为Ni和Nj的点集,记ε为v中节点之间的边集合,则不存在的边集合为ε′=ε×ε-v,那么对齐异构社交网络的链路预测即为预测在未来是否会形成。链路预测(linkprediction)是社交网络研究中的一个重要分支和基础环节,它基于可观察到的网络拓扑结构特征和节点自身的属性特征,预测两个不存在链路的节点之间在未来是否会形成链路。链路预测通常被看作是一个二分类问题,即对于两个给定的节点,预测两者之间是否会形成链路。链路预测对于精准营销、犯罪团伙发现等领域都有着重要的实际应用价值。早期的链路预测主要是在单个社交网络中进行,常用的方法一般分为(1)基于相似性的预测;(2)基于最大似然估计的预测;(3)基于概率关系模型的预测等。其中,基于相似性的方法假设两个节点越相似,它们之间未来建立链路的可能性越大,于是,计算两个节点的相似性是这类方法的主要途径。典型的方法有共同邻居、Jaccard系数、Katz指标、RWR(randomwalkwithrestart)等。基于最大似然估计的预测方法分为层次结构模型和随机分块模型,两者都是建立一个初始模型然后通过极大似然估计的方法调整结构,最终达到收敛状态。概率关系模型则有贝叶斯网络关系模型、马尔科夫网络关系模型和关系依赖网络模型等。然而,在进行链路预测时,利用单一网络的信息往往不能取得很好的效果,例如,一个新用户在加入一个社交网络时,其在该网络中的拓扑关系和个人属性特征等信息都是相当稀疏的,这也就使得利用单网络信息为该用户推荐好友或服务时很难取得较好的效果。此外,由于现实中基本不存在完全对齐的社交网络,因此人们在现实中的好友不会存在于每个社交网络中,也就是说,用户在某个社交网络中的好友只是真实好友的一部分。而由于网络功能、性质的差异性,用户在使用不同的社交网络时,也会发布不同的信息(post)。因此,只观察一个社交网络很难获取关于某个真实用户足够的社交关系和对该用户兴趣爱好、生活习惯、性格特点等等全面的认识。因此,综合不同社交网络的信息,对于更为准确的链路预测工作具有指导性意义。对齐异构社交网络中的链路预测工作还处于起步阶段。多数研究仍然集中在以用户-用户链路预测为主的问题中,现有的工作中存在属性或数据字段利用率不高,特征设计考虑的因素过少、特征筛选方法不够好等问题,因此也无法从已有特征中得到准确具体的结论。而且这些理论上的链路预测的预测搜索空间远远达不到实体推荐的需求,并且也没有按照时间顺序真正地进行“预测”而是数据正负例的交叉验证。因此,与链路预测相关的工作种类不多,针对这些不足,本专利技术将从特征定义和特征筛选等方面对部分对齐异构社交网络中的链路预测问题进行研究,利用基于元路径的方法挖掘用户(实体)之间的相关性,从而解决对齐异构社交网络中的链路预测问题。
技术实现思路
针对当前对齐异构社交网络中的链路预测相关研究较少,且已有研究考虑的因素较少,传统的协同过滤、矩阵分解等链路预测方法很难解决数据稀疏性问题,结合现有的链路预测、特征选择等相关技术,本专利技术提出了一种对齐异构社交网络中基于元路径的链路预测方法,主要解决对齐异构社交网络中的用户推荐和位置推荐问题。该方法能够有效地挖掘出用户(实体)之间基于不同元路径的语义相关性,同时也在一定程度上缓解了数据的稀疏性问题,从而达到较好的推荐效果。为了解决上述问题,本专利技术提出了一种对齐异构社交网络中基于元路径的链路预测方法,具体的技术方案包括以下五个步骤:1.对齐异构社交网络(alignedheterogeneoussocialnetwork)建模:将Foursquare和Twitter组成的对齐异构社交网络建模为其中NF=(VF,EF)表示Foursquare网络,NT=(VT,ET)表示Twitter网络,A表示Foursquare与Twitter之间的锚链路集合,具体而言:在Foursquare网络中,节点集合包括用户节点集合和位置节点集合边集合包括:●用户-用户边集合对于表示用户和用户存在好友关系;●用户-位置边集合对于表示用户访问过位置并发布了tip;●位置-位置边集合对于表示位置和位置间存在共同访问用户;在Twitter网络中,节点集合包括用户节点集合和位置节点集合边集合包括:●用户-用户边集合对于表示用户关注了用户●用户-位置边集合对于表示用户在位置发布过推文;●位置-位置边集合对于表示位置和位置间存在共同访问用户;Foursquare和Twitter组成的对齐异构社交网络的网络模式可以抽象为TN=(S,R),其中节点类型集合S={UF,UT,LF,LT},边类型集合R={UF-UFUT→UT,UF→LF,UT→LT,UFAUT,LF-LF,LT-LT;其中,网络中各种边的权值定义及计算方法如下:1)Foursquare中用户-用户(UF-UF)边权值定义为:其中,为Foursquare的用户,表示用户好友数量;2)Twitter中用户-用户(UT→UT)边权值定义为:其中,3)Foursquare/Twitter中用户-位置(UF→LF/UT→LT)边权值定义为:给定一条用户-位置边(ui,lj),使用本文档来自技高网
...
对齐异构社交网络中基于元路径的链路预测方法

【技术保护点】
一种对齐异构社交网络中基于元路径的链路预测方法,其特征在于:包括以下步骤:1)对齐异构社交网络建模:对Foursquare和Twitter组成的对齐异构社交网络进行网络建模,并抽象出网络模式;2)元路径的自动化提取:利用深度优先遍历的思想,分别为下述三类链路类型自动化提取元路径集合:21)Foursquare中以用户类型节点为起始节点、位置类型节点为终止节点,提取的元路径集合记作Ψ;22)Foursquare中以用户类型节点为起始节点、用户类型节点为终止节点,提取的元路径集合记作Ω;23)Twitter中以用户类型节点为起始节点、用户类型节点为终止节点,提取的元路径集合记作Γ;所提取的元路径需满足条件:网络内元路径的长度不超过3,网络间元路径的长度不超过5,某个元路径内不能存在连续两条位置‑位置边;3)定义基于元路径的特征值计算方法;4)按时间戳划分数据集;5)提出一种两阶段逐步向前贪心选择算法进行特征选择;6)基于特征选择的结果训练C4.5决策树分类器进行链路预测。

【技术特征摘要】
1.一种对齐异构社交网络中基于元路径的链路预测方法,其特征在于:包括以下步骤:1)对齐异构社交网络建模:对Foursquare和Twitter组成的对齐异构社交网络进行网络建模,并抽象出网络模式;2)元路径的自动化提取:利用深度优先遍历的思想,分别为下述三类链路类型自动化提取元路径集合:21)Foursquare中以用户类型节点为起始节点、位置类型节点为终止节点,提取的元路径集合记作Ψ;22)Foursquare中以用户类型节点为起始节点、用户类型节点为终止节点,提取的元路径集合记作Ω;23)Twitter中以用户类型节点为起始节点、用户类型节点为终止节点,提取的元路径集合记作Γ;所提取的元路径需满足条件:网络内元路径的长度不超过3,网络间元路径的长度不超过5,某个元路径内不能存在连续两条位置-位置边;3)定义基于元路径的特征值计算方法;4)按时间戳划分数据集;5)提出一种两阶段逐步向前贪心选择算法进行特征选择;6)基于特征选择的结果训练C4.5决策树分类器进行链路预测。2.根据权利要求1所述的对齐异构社交网络中基于元路径的链路预测方法,其特征在于,所述步骤1中对齐异构社交网络建模,包括步骤:Foursquare和Twitter组成的对齐异构社交网络建模为其中NF=(VF,EF)表示Foursquare网络,NT=(VT,ET)表示Twitter网络,A表示Foursquare与Twitter之间的锚链路集合,具体而言:在Foursquare网络中,节点集合包括用户节点集合和位置节点集合边集合在Twitter网络中,节点集合包括用户节点集合和位置节点集合边集合Foursquare和Twitter组成的对齐异构社交网络的网络模式可以抽象为TN=(S,R),其中节点类型集合S={UF,UT,LF,LT},边类型集合3.根据权利要求2所述的对齐异构社交网络中基于元路径的链路预测方法,其特征在于,所述步骤1中对齐异构社交网络建模,Foursquare和Twitter组成的对齐异构社交网络中的边权值定义及计算方法如下:1)Foursquare中用户-用户(UF→UF)边权值定义为:其中,为Foursquare的用户,表示用户好友数量;2)Twitter中用户-用户(UT→UT)边权值定义为:其中,3)Foursquare/Twitter中用户-位置(UF→LF/UT→LT)边权值定义为:给定一条用户-位置边(ui,lj),使用两种方式定义其权值:●计数计量方式(考虑用户ui对位置lj的访问次数):●二值计量方式(考虑用户ui是否访问过位置lj):其中,Loc(ui)表示用户ui访问过的位置集合;4)锚链路边权值定义为:5)Foursquare/Twitter位置-位置(LF-LF/LT-LT)边权值定义:对于给定的一条位置-位置边(li,lj),使用以下六种方式定义其权值:●基于空间距离:dis(li,lj)表示位置li和位置lj间的球面距离,单位为米;●基于时间访问规律:t(li)是一个24维的向量,表示位置li在每个小时内被访问的次数,cos(t(li),t(lj))表示向量t(li)与t(lj)之间的余弦相似度;●基于文本相似度:Doc(li)表示位置li处的所有tips形成的文档,此处使用Monge-Elkan距离作为文本相似度的计算方法;●基于流行度:2...

【专利技术属性】
技术研发人员:刘波陈巧云尹劼曹玖新罗军舟
申请(专利权)人:东南大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1