一种在线社交网络中朋友关系预测的方法技术

技术编号:10041506 阅读:217 留言:1更新日期:2014-05-14 12:18
本发明专利技术涉及一种在线社交网络中朋友关系预测的方法,该具体过程为:基于社交网站提供的API接口采集用户在社交网络上的签到数据及朋友关系;根据采集的数据提取特征来表征用户之间的关系,选取信息增益最大的三个特征来表征用户之间的朋友关系;按城市选取社交网络中在的所有在该城市有签到数据及有签到数据的用户的朋友关系作为训练数据,将朋友关系数据和非朋友关系数据比例定为1∶3,按选取的三个特征采用分类算法建立朋友关系模型;选取要预测用户的签到和朋友关系数据作为测试数据,对选取的每个用户,预测其与测试数据中其他所有用户之间的关系。本发明专利技术使得预测效果更接近用户的客观实际情况,有效的提高朋友关系预测的正确率。

【技术实现步骤摘要】

本专利技术涉及社会计算
,尤其涉及一种在线社交网络中朋友关系预测的方法
技术介绍
近年来社交网络得到了迅猛的发展,人们对信息的获取和消息的传递开始变得越来越依赖于网络,用户可以通过分享新闻、日志、视频、音乐及相片等方法,维持和开拓人际关系。在线社交网络是虚拟和现实的结合,人们在现实生活中的行为和他们在社交网络中的行为有很大程度的相似性,这些行为相似的并且在地理上相距比较近的人更有可能成为朋友。在线社交网络基于六度分割理论运作,即你和任何一个陌生人之间所间隔的人不会超过六个,也就是说,最多通过六个人你就能够认识任何一个陌生人。这就是六度分割理论,也叫小世界理论。每个个体的社交圈不断放大,最后形成一个大型的社交拓扑网络。专利200610157496.9提出了一种社交网络社区的推荐朋友的方法,但其没有考虑用户的社交圈子以及用户之间的距离。专利200910213921.5只公开了社交网络中社区推荐异性朋友的方法,其只考虑了用户的特征信息,没有用户的行为信息。专利200810009403.7提出了社会网络的竞争性朋友排名的方法,强调朋友之间的互动,忽略了用户本身的行为和地域等信息。鉴于上述缺陷,本专利技术创作者经过长时间的研究和实践终于获得了本创作。
技术实现思路
本专利技术的目的在于提供一种在线社交网络中朋友关系预测的方法,用以克服上述技术缺陷。为实现上述目的,本专利技术提供一种在线社交网络中朋友关系预测的方法,该具体过程为:步骤101,基于社交网站提供的API接口采集用户在社交网络上的签到数据及朋友关系;步骤102,根据采集的数据提取特征来表征用户之间的关系,以信息增益为标准,衡量选取特征的信息含量,选取信息增益最大的三个特征来表征用户之间的朋友关系;步骤103,按城市选取社交网络中在的所有在该城市有签到数据及有签到数据的用户的朋友关系作为训练数据,将朋友关系数据和非朋友关系数据比例定为1∶3,按选取的三个特征采用分类算法建立朋友关系模型;步骤104,选取要预测用户的签到和朋友关系数据作为测试数据,对选取的每个用户,预测其与测试数据中其他所有用户之间的关系。进一步,上述步骤102中选取用户社交拓扑、用户签到地点类型和用户签到地点三个特征;上述特征的具体计算方法如下:定义社交网络Gs(Us,Es),节点us表示用户,假定Gs为完全图,若两用户ui,uj是朋友,则用一条朋友边连接;若他们为非朋友,则用一条非朋友边连接,当去掉用户ui,uj之间的朋友边后,他们之间即为非朋友边,非朋友边不能被删除。进一步,所述用户社交网络的计算方法如下:在社交网Gs中,去掉社交网Gs中用户i和用户j之间的朋友边,用户i和用户j拓扑网络中的最短距离即为他们在用户拓扑网络中的社交距离;若用户之间为朋友边,则其距离为1,否则为无穷大;在计算用户i和用户j社交距离之前,若用户i和用户j之间为朋友边则先在社交网Gs中删除该边eij,若为非朋友边则直接计算;设用户i和用户j之间的用户边在社交网络结构中的社交距离为属性as,其计算方法如公式1所示;as(i,j)=shortest_dis tan ce(ui,uj)inG′s(Us,Es-eij)   (1)最短距离的计算方法可采用Dijkstra算法或Floyd算法。进一步,所述用户签到地点类型的计算方法如下:定义用户ui签到地点类型为i,每个地点签到的次数分别为(ci1,ci2,......,ciN),总的签到次数为ci,设共有L个用户,每个用户在地点i签到的次数为(Ti1,Ti2......,TiL),定义用户k在地点tik,签到的概率为p(k);引入地点信息熵的概念,定义如公式2所示,E(ti)=Σi=1L-pi(k)logpi(k)---(2)]]>定义用户签到地点类型属性为at,用户在地点信息熵小的地方有共同签到的人更有可能成为朋友,如用户a的住宅,用户a签到的次数较多,其他用户签到次数较少,这个地点的地点信息熵小,为私密地点,若用户b也在该地点签到,则用户b很可能是用户a的朋友或者用户b成为用户a的朋友的概率更大;则对每个用户i和用户j,其对应的用户关系有:进一步,用户签到地点,定义用户ui签到的地点序列i,每个地点签到的次数分别为(ci1,ci2......,ciN),总的签到次数为Ci,Dist(lim,ljn)表示用户i的第m个签到地点和用户j的第n个签到地点之间的距离;在距离相同时签到的次数越多成为朋友的可能性越大;如果两个用户经常签到地点相近则表明他们是邻居或在相同的地方工作,否则表明他们只是偶然碰见。进一步,上述步骤101中,采集的数据有用户签到时间、签到地点及其类型、用户的朋友关系。进一步,在上述步骤104中,对于要预测朋友关系的用户,选取其在社交网络上的签到时间、签到地点及其类型、用户的朋友关系;按选取的特征描述该用户与其他用户的关系,根据建立的朋友关系模型将这些特征描述的用户关系分成朋友关系与非朋友关系。进一步,通过挖掘潜在的朋友关系建立朋友预测模型并进行测试验证,该具体过程为:在已有的社交拓扑网络中先随机删除部分朋友边,然后根据删除朋友边后的社交拓扑网络计算边的特征属性值,将删除的朋友边数据以及随机选取的部分数据作为测试数据,随机选取一定的朋友边和非朋友边数据采用分类算法建立模型,根据模型对测试数据分类的结果检测模型挖掘社交拓扑网络中潜在朋友关系的性能。进一步,通过交叉验证建立朋友预测模型并进行测试验证,该具体过程为:以一个社交拓扑网络中的数据建立模型,以另一个社交拓扑网络中的数据做测试,然后反过来以作测试的社交拓扑网络为训练数据,以训练的社交拓扑网络为测试数据。与现有技术相比较本专利技术的有益效果在于:本专利技术提取的特征包含用户在线行为、地理特征以及用户的社交圈子,使得对用户的朋友关系进行预测时同时考虑了用户的在线行为和离线活动,融合了线上和线下特征,使得预测效果更接近用户的客观实际情况,有效的提高朋友关系预测的正确率。附图说明图1为本专利技术实例中朋友关系预测的流程图;图2为本专利技术实例中对潜在的朋友关系挖掘的结果示意图;图3为本专利技术实例中交叉验证的朋友关系预测的结果示意图。具体实施方式以下结合附图,对本专利技术上述的和另外的技术特征和优点作更详细的说明。本专利技术在考本文档来自技高网...
一种在线社交网络中朋友关系预测的方法

【技术保护点】
一种在线社交网络中朋友关系预测的方法,其特征在于,该具体过程为:步骤101,基于社交网站提供的API接口采集用户在社交网络上的签到数据及朋友关系;步骤102,根据采集的数据提取特征来表征用户之间的关系,以信息增益为标准,衡量选取特征的信息含量,选取信息增益最大的三个特征来表征用户之间的朋友关系;步骤103,按城市选取社交网络中在的所有在该城市有签到数据及有签到数据的用户的朋友关系作为训练数据,将朋友关系数据和非朋友关系数据比例定为1∶3,按选取的三个特征采用分类算法建立朋友关系模型;步骤104,选取要预测用户的签到和朋友关系数据作为测试数据,对选取的每个用户,预测其与测试数据中其他所有用户之间的关系。

【技术特征摘要】
1.一种在线社交网络中朋友关系预测的方法,其特征在于,该具体
过程为:
步骤101,基于社交网站提供的API接口采集用户在社交网络上的签
到数据及朋友关系;
步骤102,根据采集的数据提取特征来表征用户之间的关系,以信息
增益为标准,衡量选取特征的信息含量,选取信息增益最大的三个特征来
表征用户之间的朋友关系;
步骤103,按城市选取社交网络中在的所有在该城市有签到数据及有
签到数据的用户的朋友关系作为训练数据,将朋友关系数据和非朋友关系
数据比例定为1∶3,按选取的三个特征采用分类算法建立朋友关系模型;
步骤104,选取要预测用户的签到和朋友关系数据作为测试数据,对
选取的每个用户,预测其与测试数据中其他所有用户之间的关系。
2.根据权利要求1所述的在线社交网络中朋友关系预测的方法,其
特征在于,上述步骤102中选取用户社交拓扑、用户签到地点类型和用户
签到地点三个特征;上述特征的具体计算方法如下:
定义社交网络Gs(Us,Es),节点us表示用户,假定Gs为完全图,若两用户
ui,uj是朋友,则用一条朋友边连接;若他们为非朋友,则用一条非朋友边
连接,当去掉用户ui,uj之间的朋友边后,他们之间即为非朋友边,非朋友
边不能被删除。
3.根据权利要求2所述的在线社交网络中朋友关系预测的方法,其
特征在于,所述用户社交网络的计算方法如下:
在社交网Gs中,去掉社交网Gs中用户i和用户j之间的朋友边,用户i
和用户j拓扑网络中的最短距离即为他们在用户拓扑网络中的社交距离;
若用户之间为朋友边,则其距离为1,否则为无穷大;在计算用户i和用
户j社交距离之前,若用户i和用户j之间为朋友边则先在社交网Gs中删
除该边eij,若为非朋友边则直接计算;
设用户i和用户j之间的用户边在社交网络结构中的社交距离为属性
as,其计算方法如公式1所示;
as(i,j)=shortest_dis tan ce(ui,uj)inG′s(Us,Es-eij)   (1)
最短距离的计算方法可采用Dijkstra算法或Floyd算法。
4.根据权利要求2或3所述的在线社交网络中朋友关系预测的方法,
其特征在于,所述用户签到地点类型的计算方法如下:
定义用户ui签到地点类型为i,每个地点签到的次数分别为(ci1,ci2......,ciN),

\t总的签到次数为ci,设共有L个用户,每个用户在地点i签到的次数为
(Ti1,Ti2......,TiL),定义用户k在地点tik,签到的概率为p(k)...

【专利技术属性】
技术研发人员:郭斌於志文罗惠周兴社倪红波王柱
申请(专利权)人:西北工业大学
类型:发明
国别省市:陕西;61

网友询问留言 已有1条评论
  • 来自[广东省广州市番禺区电信ADSL] 2014年05月23日 16:32
    目前公司想开发一款基于你们技术的app,请联系我们。
    0
1