基于顶点团随机步数抽样的社交网络用户获取方法和系统技术方案

技术编号:21716249 阅读:48 留言:0更新日期:2019-07-27 19:43
本发明专利技术公开了一种基于顶点团随机步数抽样的社交网络用户获取方法和系统,属于大数据处理领域。包括:S0.获取社交网络图,从所述社交网络图中任意选取一个用户顶点作为样本点;S1.获取样本点的团;S2.寻找样本点的团中所有未被抽样过的邻居顶点,生成抽样空间;S3.从抽样空间等概率抽样一个顶点,作为下一个样本点;S4.重复步骤S1~S3,直到抽样所获取的顶点的数量达到需要获取的社交网络用户数量;顶点团是指与该顶点相关的最大的全连接子图。本发明专利技术通过团结构来聚集社交网络用户中的相似顶点,抽样空间仅由没有被抽样过的顶点组成,将这些相似顶点排除在抽样空间外,解决了大量重复样本、相似样本的问题,有效的减少抽样的开销。

A Method and System for Social Network User Acquisition Based on Vertex Cluster Random Step Sampling

【技术实现步骤摘要】
基于顶点团随机步数抽样的社交网络用户获取方法和系统
本专利技术属于大数据处理领域,更具体地,涉及一种基于顶点团随机步数抽样的社交网络用户获取方法。
技术介绍
社交网络用图数据结构来描述,社交网络中的用户抽象为顶点,社交网络用户之间的关系抽象为边。由于社交网络上的用户量巨大,社交网络图规模巨大。图抽样是指采用图中的部分数据来估测图的整体特征。因此,在大数据时代,图抽样技术能够为可以用图来描述的应用(如,社交网络图)提供高效的处理方式。在社交网络中,从一个用户的主页出发,可以很方便获取所有于其有好友关系的主页页面。对应到图结构中,即从一个顶点出发,很容易获取其邻居顶点。基于这种链接关系,最有效的方法是采用随机步数抽样方法获取社交网络的用户,进而通过这些用户类的样本获取社交网络图的用户的邻居顶点的分布特征。该方法的操作过程是:首先随机获取图中的一个样本点,然后根据随机的获取该样本点的邻居顶点作为下一个样本点。不断重复此过程,直到达到抽样过程结束的条件,才终止此操作过程。假设当前的抽样顶点有m个邻居顶点,则每个邻居顶点被选取作为下一个样本点的概率为1/m。而基于随机游走的方法获取社交网络图的顶点的过程可以被当作经典的马尔科夫链的过程:即下一个样本点的选择只与上一个样本点相关,与之前以及后来的样本点选择过程无关。其中下一个样本点的选择概率可以被认为马尔科夫链的从当前状态转移到下一个状态的转移概率。换句话说,基于随机游走的方法获取社交网络图顶点的过程有强大的数学理论支撑,在根据其获取样本点的特征来估测全图的特征时,有成熟的误差纠正模型。因此,目前大多数研究采取基于随机游走的方法来获取社交网络图的顶点类样本。然而,现有的基于随机步数的抽样方法中的步数机会困于小图或局部的图,导致存在以下问题:1.会获取大量的重复的社交网络用户;2.会获取大量属性相似的社交网络用户;3.抽样的开销的比较大,社交网络用户获取速度慢。
技术实现思路
针对现有技术的缺陷,本专利技术的目的在于解决现有技术基于随机步数抽样的社交网络用户获取方法导致获取大量的重复的社交网络用户、属性相似的社交网络用户、获取速度慢的技术问题。为实现上述目的,第一方面,本专利技术实施例提供了一种基于顶点团随机步数抽样的社交网络用户获取方法,该方法包括以下步骤:S0.获取社交网络图,从所述社交网络图中任意选取一个用户顶点作为样本点;S1.获取该样本点的团;S2.寻找该样本点的团中所有未被抽样过的邻居顶点,生成抽样空间;S3.从所述抽样空间等概率抽样一个顶点,作为下一个样本点;S4.重复步骤S1~S3,直到抽样所获取的顶点的数量达到需要获取的社交网络用户数量;所述顶点团是指与该顶点相关的最大的全连接子图。具体地,所述获取社交网络图,具体为:社交网络中的用户抽象为顶点,社交网络用户之间的关系抽象为边。具体地,步骤S0中,随机选取社交网络用户的ID,通过该ID,随机获取社交网络图中的一个用户顶点。具体地,被选取的样本点被标记为已抽样。具体地,根据获取到的社交网络用户,估测社交网络的特征。具体地,所述社交网络的特征为邻居个数的分布特征。第二方面,本专利技术实施例提供了一种基于顶点团随机步数抽样的社交网络用户获取系统,所述社交网络用户获取系统采用上述第一方面所述的社交网络用户获取方法。第三方面,本专利技术实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述第一方面所述的社交网络用户获取方法。总体而言,通过本专利技术所构思的以上技术方案与现有技术相比,具有以下有益效果:1.本专利技术通过一个单独保存已经抽样过的顶点,再下次抽样顶点时,将这些已经被抽样过的顶点排除,抽样空间(可以被选择作为下一个样本点的顶点集合)仅由没有被抽样过的顶点组成,解决了大量重复样本的技术问题。2.本专利技术通过团结构来聚集社交网络用户中的相似顶点,然后在具体每步的抽样前,将这些相似顶点排除在抽样空间外,解决了大量相似样本的问题。3.本专利技术的抽样技术可以获取无重复的样本,同时能够获取社交网络少量的具有代表性的样本,用于反映社交网络的用户的结构特征,与现有技术相比,本专利技术中抽样方法可以有效的减少抽样的开销。附图说明图1为本专利技术实施例提供的一种基于顶点团随机步数抽样的社交网络用户获取方法流程图;图2为本专利技术实施例提供的获取该样本点的团的过程示意图;图3为本专利技术实施例提供的步骤S3过程示意图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。如图1所示,一种基于顶点团随机步数抽样的社交网络用户获取方法,该方法包括以下步骤:S0.获取社交网络图,从所述社交网络图中任意选取一个用户顶点作为样本点;S1.获取该样本点的团;S2.寻找该样本点的团中所有未被抽样过的邻居顶点,生成抽样空间;S3.从所述抽样空间等概率抽样一个顶点,作为下一个样本点;S4.重复步骤S1~S3,直到抽样所获取的顶点的数量达到需要获取的社交网络用户数量。步骤S0.获取社交网络图,从所述社交网络图中任意选取一个用户顶点作为样本点。社交网络中的用户抽象为顶点,社交网络用户之间的关系抽象为边。假设社交网络图G=(V,E),其中,V表示其全体顶点集,E表示为基于该顶点集的边集。例如,用G=(V,E)描述社交网络中的好友关系,其中,user_a,user_b是该社交网络图中两个用户,假设user_b为user_a的好友,(user_a,user_b)即为该图中的一条边。假设该图为有向图,相对于user_a来说,边(user_a,user_b)为user_a的出边,而相对于user_b,边(user_a,user_b)为user_b的入边。获取顶点类样本是指在从全图中按照某种方式提取图中的部分顶点,进而获取这部分顶点的所有相关的边集构成一个子图,该子图能够反映全图的某些连接类的特征,如出边和入边的分布特征。输入一个随机的顶点或者是社交网络用户的ID,通过该ID,可以随机获取大图(社交网络)中的一个顶点(用户)。被选取的样本点被标记为已抽样。步骤S1.获取该样本点的团。基于团的随机步数的抽样的目的是获取大图中有代表性的顶点,因此,团和顶点之间必然存在一对一的关系:即每个顶点都有与自己相关的团,称为顶点的团。该样本点与其相应的团中的顶点是紧密连接的,因此该团中的顶点可以归类为相似顶点。大图的团是指由2个或者2个以上的顶点组成,并且团中的任何两个顶点之间在大图中都有连接,即两个顶点可以组成大图中的边。区别于大图的团,顶点的团是指与该顶点相关的最大的全连接子图。如图2所示,与顶点V1相关的全连接子图有3个,这三个子图分别由3个顶点的集合组成:(V1,V2),(V1,V3,V4,V5),(V1,V6,V7)。根据上文描述的关于顶点的团的概念,即顶点的团是由与该顶点相关的最大的子图组成,因此,子图(V1,V3,V4,V5)是顶点V1的团。步骤S2.寻找该样本点的团中所有未被抽样过的邻居顶点,生成抽样空间。在步骤S1的基础上,根据组成团的顶点,获取该团的未被采样的邻居顶点的集合。该集合中包括团中的顶点且不包括本文档来自技高网
...

【技术保护点】
1.一种基于顶点团随机步数抽样的社交网络用户获取方法,其特征在于,该方法包括以下步骤:S0.获取社交网络图,从所述社交网络图中任意选取一个用户顶点作为样本点;S1.获取该样本点的团;S2.寻找该样本点的团中所有未被抽样过的邻居顶点,生成抽样空间;S3.从所述抽样空间等概率抽样一个顶点,作为下一个样本点;S4.重复步骤S1~S3,直到抽样所获取的顶点的数量达到需要获取的社交网络用户数量;所述顶点团是指与该顶点相关的最大的全连接子图。

【技术特征摘要】
1.一种基于顶点团随机步数抽样的社交网络用户获取方法,其特征在于,该方法包括以下步骤:S0.获取社交网络图,从所述社交网络图中任意选取一个用户顶点作为样本点;S1.获取该样本点的团;S2.寻找该样本点的团中所有未被抽样过的邻居顶点,生成抽样空间;S3.从所述抽样空间等概率抽样一个顶点,作为下一个样本点;S4.重复步骤S1~S3,直到抽样所获取的顶点的数量达到需要获取的社交网络用户数量;所述顶点团是指与该顶点相关的最大的全连接子图。2.如权利要求1所述的社交网络用户获取方法,其特征在于,所述获取社交网络图,具体为:社交网络中的用户抽象为顶点,社交网络用户之间的关系抽象为边。3.如权利要求1所述的社交网络用户获取方法,其特征在于,步骤S0中,随机选取社...

【专利技术属性】
技术研发人员:王芳冯丹张玲玲
申请(专利权)人:华中科技大学
类型:发明
国别省市:湖北,42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1