一种基于混合跳转的社交网络采样方法技术

技术编号:18765039 阅读:328 留言:0更新日期:2018-08-25 11:04
本发明专利技术公开一种基于混合跳转的社交网络采样方法。该方法在社交网采样中,基于现有的经典MHRW(Metropolis‑Hasting Random Walk)采样方法,利用随机跳转策略避免采样陷入局部子网络,可以有效的解决大型复杂社交网络采样问题,从而得到无偏的社交网络样本集数据。并且,本文中第一次使用结合BFS(Breath‑first Search)方法采样速度快且无重复节点入样的优越性和三次样条插值方法建立三维平均度分布模型,确定社交网络采样方法跳转参数最优值。利用此方法更好的为图抽样设置参数的选取提供了指导,使采样方法达到最好的采样效果。本发明专利技术研究提供一种社交网络采样方法发新思路,有助于对大型复杂社交网络的性能研究。

【技术实现步骤摘要】
一种基于混合跳转的社交网络采样方法
本专利技术涉及到社交网络数据采样
,具体是一种基于混合跳转的社交网络采样方法(HybridJumpSampling,HJSampling)。
技术介绍
近年来,社交网络如Facebook,Twitter正在成为生活种不可或缺的一部分,使得基于互联网的社会化媒体正影响和改变着我们的生活。由《DIGITALIN2017GLOBALOVERVIEW》报告显示,2017年全球各种社交网络的总用户规模为30.28亿,而全世界的人口总数目前为75亿。这意味着,移动互联网用户在社交网络用户中占到了绝大多数比例,全世界由四成的人口在使用社交网络,而且总用户规模还在持续增长着。其中,当今最流行的在线社交网络之一Facebook,它的全球用户总数已突破20亿(2017年7月数据)。此外,Twitter全球每月平均活跃用户达到3.28亿(2017年6月数据)。社交网络以前所未有的规模提供大量信息。由于整个网络的数据量太大,对社交网络的数据进行分析面临着三个巨大的挑战。尽管一些研究人员认为,随着计算能力和数据处理能力的提高,处理集成数据将成为一种趋势,但仍然常需要采样方法处理海量数据得到一个相对较小有代表性的样本,供后期的研究与应用。因此,人们对如何利用图形采样技术从一个大规模的社交网络中获取一个具有代表性的无偏见的数据集进行了大量的关注。真实社交网络中一些大型的复杂社交网络并不是全连通的,可能包括不连通或者弱连通的组件。MHRW方法假设是社交图的连接很好情况下进行采样,这导致了MHRW方法不适合采样断开或者松散连接的图形。这意味着:有可能走到一个节点,它的度是1,MHRW方法的直觉方法是选取邻居节点,但是这将会产生高度节点的偏见。对于每个源节点,马尔可夫链不够长,无法收敛于目标概率分布。一旦走到这样的节点,就很难再能通过原始的MHRW方法去到其他节点了,这导致取样过程的局部性陷入。因此,此方法存在使采样陷入局部连通子网的情况。如不能跳出局部区域子网的限制,将导致采集样本集具有局部特性无法很好的反映原始网络的特性,并且浪费资源空间。
技术实现思路
针对上述不足,本专利技术提供一种基于混合跳转的社交网络采样方法,解决经典MHRW方法在社交网络采样过程中局部性陷入的问题,在网络采样的Geweke诊断收敛性以及采样节点的分布上获得更好的效果。本专利技术解决技术问题所采用的技术方案如下:一种基于混合跳转的社交网络采样方法,该方法包括如下步骤:步骤一:定义概念:一个OSNs通常被建模为一个具有一组节点的社会图,用户与用户之间的关系作为图的边。在此,把社交网络图定义为一个无定向和未加权的图G=(V,E)。其中,集合V中的每一个顶点v代表了OSNs中的一个用户,节点的总数是|V|=n。而集合E中的每一个边e代表了用户之间的一段友情关系,边缘的总数是|E|=m。可以使用(v,w)来表示在一个复杂的网络的一个边,v,w∈V,w是v的邻居节点,v的邻居节点集表示为V={w|(v,w),而kw代表着节点w的度。Qvw在此定义为度比,即Qvw=kv/kw。S是类似于原始图G的更小的子节点集,这也是采样方法爬行的主要目标。S保留原始网络的主要特征,对实际网络进行预处理,研究等方面具有重要的作用;步骤二:获取跳跃节点集:首先,选取N个不同的初始节点,由于BFS的速度快且无重复入样节点的简单实用的优势,采用BFS方法对社交网络分别进行N次采样,随机组合成样本集。然后,将所收集的数据利用数据聚合模块进行处理,把相同度的节点数据聚合到一个例表中。在这里命名这个列表为k度跳转列表,其中k为节点的度值。定义跳转节点集为V’,其数据量为|V’|。当然,跳转节点列集的规模也可以根据样本量自行选择。步骤三:从随机挑选的一个初始节点开始进行采样,步骤四:记录当前节点v和其所有邻居节点w;;步骤五:随机挑选一个邻居节点,判断当前邻居节点w是否入样,如果α<Qvw,其中α是[0,1]分布的随机数,采样进行到w节点,将w加入采样列表S;否则,进行步骤六;步骤六:引入随机的跳转度p判断采样是自循环,还是执行跳转策略,当β<p时,其中β是[0,1]分布的随机数,采样进行自循环,这意味着从当前节点v的其他邻居节点进行采样;否则,执行跳转策略,跳转到搜集的跳转节点列表中的节点。步骤七:重复执行步骤四至步骤六,直到获取足够的节点采样结束。进一步的,所述跳转度p和跳转节点列表的参数确定方法如下:步骤一:采用三次样条插值方法,对离散平均度数据点进行三维建模,从而得到平均度随跳转度p和采样k度跳转列表变化的三维平均度分布图;步骤二:根据三维平均度分布图,找出样本的平均度随跳转度p和采样k度跳转列表变化的规律,确定跳转度p和采样k度跳转列表参数的最优值,在这里借助UNI方法衡量原始网络的平均度。相对于现有的技术,本专利技术的有效果是:本专利技术引入随机跳转策略对MHRW方法进行优化,从而提出一种大型复杂社交网络混合跳转采样方法。这一方法弥补了目前MHRW方法存在局部过度入样的缺陷。本专利中第一次使用结合BFS方法采样速度快且无重复节点入样的优越性和三次样条插值方法建立三维平均度分布模型,确定社交网络采样方法跳转参数最优值。利用此方法更好的为图抽样设置参数的选取提供了指导,使方法达到最好的采样效果。根据实验评估,本专利所提出的HJ采样方法的性能在网络的Geweke诊断收敛性以及采样节点的分布上比原始的MHRW方法采样效果要好。附图说明图1为三维平均度分布图;图2(a)为MHRW采样的Geweke诊断收敛效果图;图2(b)为HJ采样的Geweke诊断收敛效果图;图3为MHRW采样节点分布图;图4为HJ采样节点分布图。具体实施方式为了让专利技术的上述其他目的、特征和优点更加明显,下面结合具体的实施方式作进行进一步说明。一个OSNs通常被建模为一个具有一组节点的社会图,用户与用户之间的关系作为图的边。在此,把社交网络图定义为一个无定向和未加权的图G=(V,E)。其中,集合V中的每一个顶点v代表了OSNs中的一个用户,节点的总数是|V|=n。而集合E中的每一个边e代表了用户之间的一段友情关系,边缘的总数是|E|=m。可以使用(v,w)来表示在一个复杂的网络的一个边,v,w∈V,w是v的邻居节点,v的邻居节点集表示为V={w|(v,w),而kw代表着节点w的度。Qvw在此定义为度比,即Qvw=kv/kw。设置爬行的初始节点为u。S是类似于原始图G的更小的子节点集,这也是采样方法爬行的主要目标。S保留原始网络的主要特征,对实际网络进行预处理,研究等方面具有重要的作用。为弥补目前MHRW方法存在的缺陷,引入随机跳转策略对MHRW方法进行优化,并且结合BFS方法采样速度快不重复采样的优越性和三次样条插值方法建立三维平面度分布模型确定方法参数,提出一种混合跳转(HJSampling)社交网络采样方法。的目标是:通过在线社交网络进行无偏采样,并且避免采样陷入局部子网络情况的发生。本专利技术考虑在大型复杂社交网络中进行无偏采样问题,提供一种基于混合跳转的社交网络采样方法,该方法包括如下步骤:第一步:跳转节点集收集:首先,选取10个不同的初始节点,由于BFS的速度快且本文档来自技高网
...

【技术保护点】
1.一种基于混合跳转的社交网络采样方法,其特征在于,该方法包括如下步骤:第一步:跳转节点集收集:首先,选取N个不同的初始节点,采用BFS方法对社交网络分别进行N次采样,随机组合成样本集;然后,将所收集的数据中相同度的节点数据聚合到一个例表中,这个列表为k度跳转列表,其中k为节点的度值;定义跳转节点集为V’,其数据量为|V’|;第二步:随机选取初始节点开始进行采样;第三步:记录当前节点v和其所有邻居节点w;第四步:随机挑选一个邻居节点,判断当前邻居节点w是否入样,如果α

【技术特征摘要】
1.一种基于混合跳转的社交网络采样方法,其特征在于,该方法包括如下步骤:第一步:跳转节点集收集:首先,选取N个不同的初始节点,采用BFS方法对社交网络分别进行N次采样,随机组合成样本集;然后,将所收集的数据中相同度的节点数据聚合到一个例表中,这个列表为k度跳转列表,其中k为节点的度值;定义跳转节点集为V’,其数据量为|V’|;第二步:随机选取初始节点开始进行采样;第三步:记录当前节点v和其所有邻居节点w;第四步:随机挑选一个邻居节点,判断当前邻居节点w是否入样,如果α<Qvw,其中α是[0,1]分布的随机数,采样进行到w节点,将w加入采样列表S;否则,进行第五步;第五步:引入跳转度p判断采样是自循环,还是执行跳转策略,当...

【专利技术属性】
技术研发人员:刘良桂王玲敏贾会玲张宇
申请(专利权)人:浙江理工大学
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1