【技术实现步骤摘要】
对齐异构社交网络中基于元路径的链路预测方法
本专利技术是一种异构社交网络中基于元路径的链路预测方法,利用了特征选择、链路预测等相关技术,涉及社会计算特别是链路预测领域。
技术介绍
首先对本专利技术中涉及到的相关概念进行定义:异构社交网络(heterogeneoussocialnetwork):给定社交网络N=(V,E),其中V=Vuser∪Vnon-user表示节点集合,包含用户集合Vuser和非用户节点集合Vnon-user,E=Euser,user∪Euser,non-user∪Enon-user,non-user}是用户节点之间、用户与非用户节点以及非用户节点之间的边集合,则称N为一个异构社交网络;锚链路(anchorlink):给定两个异构社交网络Ni、Nj以及两个账号和即和分别属于两个不同异构社交网络的用户节点集合,若和在现实中为同一个用户,则称和存在锚链路,记作Ni、Nj之间的锚链路集合记作对齐异构社交网络(alignedheterogeneoussocialnetwork):给定两个异构社交网络Ni、Nj,若Ni和Nj的用户集合和之间至少存在一条锚链路,则称Ni和Nj组成对齐异构社交网络记作其中A为锚链路集合。网络模式(networkschema):网络模式是对实际社交网络的抽象,形式化表示为TN=(S,R),其中R表示网络中的节点类型集合,S表示网络中的变类型集合。元路径(metapath):元路径是定义在网络模式中的路径,给定一个网络模式TN=(S,R),形如的路径称为元路径,其中Si∈S(i=1,...,l+1),Rj∈R(j=1,.. ...
【技术保护点】
一种对齐异构社交网络中基于元路径的链路预测方法,其特征在于:包括以下步骤:1)对齐异构社交网络建模:对Foursquare和Twitter组成的对齐异构社交网络进行网络建模,并抽象出网络模式;2)元路径的自动化提取:利用深度优先遍历的思想,分别为下述三类链路类型自动化提取元路径集合:21)Foursquare中以用户类型节点为起始节点、位置类型节点为终止节点,提取的元路径集合记作Ψ;22)Foursquare中以用户类型节点为起始节点、用户类型节点为终止节点,提取的元路径集合记作Ω;23)Twitter中以用户类型节点为起始节点、用户类型节点为终止节点,提取的元路径集合记作Γ;所提取的元路径需满足条件:网络内元路径的长度不超过3,网络间元路径的长度不超过5,某个元路径内不能存在连续两条位置‑位置边;3)定义基于元路径的特征值计算方法;4)按时间戳划分数据集;5)提出一种两阶段逐步向前贪心选择算法进行特征选择;6)基于特征选择的结果训练C4.5决策树分类器进行链路预测。
【技术特征摘要】
1.一种对齐异构社交网络中基于元路径的链路预测方法,其特征在于:包括以下步骤:1)对齐异构社交网络建模:对Foursquare和Twitter组成的对齐异构社交网络进行网络建模,并抽象出网络模式;2)元路径的自动化提取:利用深度优先遍历的思想,分别为下述三类链路类型自动化提取元路径集合:21)Foursquare中以用户类型节点为起始节点、位置类型节点为终止节点,提取的元路径集合记作Ψ;22)Foursquare中以用户类型节点为起始节点、用户类型节点为终止节点,提取的元路径集合记作Ω;23)Twitter中以用户类型节点为起始节点、用户类型节点为终止节点,提取的元路径集合记作Γ;所提取的元路径需满足条件:网络内元路径的长度不超过3,网络间元路径的长度不超过5,某个元路径内不能存在连续两条位置-位置边;3)定义基于元路径的特征值计算方法;4)按时间戳划分数据集;5)提出一种两阶段逐步向前贪心选择算法进行特征选择;6)基于特征选择的结果训练C4.5决策树分类器进行链路预测。2.根据权利要求1所述的对齐异构社交网络中基于元路径的链路预测方法,其特征在于,所述步骤1中对齐异构社交网络建模,包括步骤:Foursquare和Twitter组成的对齐异构社交网络建模为其中NF=(VF,EF)表示Foursquare网络,NT=(VT,ET)表示Twitter网络,A表示Foursquare与Twitter之间的锚链路集合,具体而言:在Foursquare网络中,节点集合包括用户节点集合和位置节点集合边集合在Twitter网络中,节点集合包括用户节点集合和位置节点集合边集合Foursquare和Twitter组成的对齐异构社交网络的网络模式可以抽象为TN=(S,R),其中节点类型集合S={UF,UT,LF,LT},边类型集合3.根据权利要求2所述的对齐异构社交网络中基于元路径的链路预测方法,其特征在于,所述步骤1中对齐异构社交网络建模,Foursquare和Twitter组成的对齐异构社交网络中的边权值定义及计算方法如下:1)Foursquare中用户-用户(UF→UF)边权值定义为:其中,为Foursquare的用户,表示用户好友数量;2)Twitter中用户-用户(UT→UT)边权值定义为:其中,3)Foursquare/Twitter中用户-位置(UF→LF/UT→LT)边权值定义为:给定一条用户-位置边(ui,lj),使用两种方式定义其权值:●计数计量方式(考虑用户ui对位置lj的访问次数):●二值计量方式(考虑用户ui是否访问过位置lj):其中,Loc(ui)表示用户ui访问过的位置集合;4)锚链路边权值定义为:5)Foursquare/Twitter位置-位置(LF-LF/LT-LT)边权值定义:对于给定的一条位置-位置边(li,lj),使用以下六种方式定义其权值:●基于空间距离:dis(li,lj)表示位置li和位置lj间的球面距离,单位为米;●基于时间访问规律:t(li)是一个24维的向量,表示位置li在每个小时内被访问的次数,cos(t(li),t(lj))表示向量t(li)与t(lj)之间的余弦相似度;●基于文本相似度:Doc(li)表示位置li处的所有tips形成的文档,此处使用Monge-Elkan距离作为文本相似度的计算方法;●基于流行度:2...
【专利技术属性】
技术研发人员:刘波,陈巧云,尹劼,曹玖新,罗军舟,
申请(专利权)人:东南大学,
类型:发明
国别省市:江苏,32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。