一种基于网络节点广度与深度捕捉的社交网络用户群组分类方法技术

技术编号:21953816 阅读:35 留言:0更新日期:2019-08-24 18:14
本发明专利技术公开了一种基于网络节点广度与深度捕捉的社交网络用户群组分类方法,针对网络表示学习中存在的全局结构特征保持问题,通过学习节点的广度与深度特征,可以极大的提高网络表示学习中对节点全局结构特征的学习能力。本发明专利技术利用深度学习方法对网络中的邻居节点相似性进行捕捉,其次利用邻接矩阵幂的方法以及度的方式来获取节点的深度与广度信息,再通过流形学习中使用的拉普拉斯特征映射方法来衡量节点之间的深度与广度相似性。最后以之来进行社交网络用户群组分类。

A Classification Method of Social Network User Groups Based on Width and Deep Capture of Network Nodes

【技术实现步骤摘要】
一种基于网络节点广度与深度捕捉的社交网络用户群组分类方法
本专利技术属于网络表示学习方法,是一种考虑了网络节点全局结构特征的网络表示学习方法。
技术介绍
根据维基百科定义,网络(network)用来表示离散的物体之间对称或者不对称的关联关系。在计算机科学中,网络通常可以表示成一个包含节点和边的图(graph)。网络结构的数据能够天然的用来表示不同物体之间的关系,各式各样的网络结构在日常生活中非常普遍。例如,在社交媒体平台中,人与人之间的关注、好友关系可以构成典型的社交网络;论文与论文之间的引用关系会构成学术引用网络;Web页面之间的超链接关系也构成了互联网上的网页链接网络。随着互联网的发展,大规模的社交媒体平台不断涌现,比较有代表性的社交媒体平台包括国内的新浪微博、微信、知乎,国外的Facebook、Twitter、Instagram、Linkedin等。这些社交媒体平台吸引了海量的用户。在这些平台中,用户与用户之间的关注、好友关系形成了典型的社交网络。与传统网络相比,这些大规模社交网络包括以下几个特点:社交网络与传统网络相比,规模更大,而且更加稀疏。据数据统计网站Statista统计,截止到2018年1月,全球最大的社交媒体平台Facebook的月活跃用户达到21.67亿,而中国最大的社交平台微信,月活跃用户也达到了9.8亿。这些社交网络包含海量用户节点的同时,也变得更加稀疏,大部分用户节点往往仅有有限的几十到几百个邻居节点。大规模和稀疏性的特点,为面向这些社交网络的网络分析、社会计算任务造成了巨大的挑战。在大规模社交网络中,除了用户与用户之间的网络结构之外,还存在着丰富的用户行为信息。例如,用户在这些平台中发布或转发的文本、图片、视频等类型的内容信息,用户自身的介绍、标签等个人信息,用户对其它内容的点赞、分享信息等等。这些海量的异构信息能够反映出用户的兴趣爱好、个人属性等重要信息,对于面向社交媒体的应用服务具有重要的价值。针对这些大规模社交媒体的应用场景非常丰富。例如,针对社交媒体用户,可以利用用户行为信息等对其进行用户画像,判断用户的性别、年龄、职业等属性信息,以及他们的兴趣爱好;基于用户画像结果,可以对用户进行个性化推荐,来推荐他们可能认识的好友或者感兴趣的新闻、产品等。针对上述大规模社交网络的研究与应用近些年来成为计算社会科学、人工智能技术的热门研究领域。如何高效地在这些大规模社交网络上进行网络分析任务,例如节点分类、聚类、链接预测、社区发现等等,一直是该领域的研究基础和重点。为了进行相应的网络分析任务,最重要的问题就是如何利用网络中的结构信息、异构信息,来对网络中的节点进行有效的特征表示,也就是如何进行网络表示。网络表示的质量,对于进行后续的网络分析任务至关重要。在数据挖掘和社交网络分析中,对于网络节点的特征表示一直至关重要。随着大规模社会网络的出现,传统的网络表示方法面临着计算效率以及可解释性的问题。此外,这些社会网络往往蕴含着丰富的异构信息,这些特点使得已有的网络表示方法不能很好的处理这些大规模社会网络。网络表示学习(NetworkRepresentationLearning),也就是网络嵌入(NetworkEmbedding),目的是为网络中的节点学习一个低维实值的向量表示。每个节点对应的表示向量蕴含了该节点的网络结构信息以及其它异构信息,这些表示向量一般被当作特征向量,来进行进一步的网络分析任务,例如节点分类、链接预测、社区发现等。
技术实现思路
本专利技术的目的在于应对上述网络分析任务中的各项问题,提供一种基于网络节点广度与深度捕捉的网络表示学习方法,本专利技术利用节点深度信息相似与广度信息相似,结合节点的局部信息相似,通过嵌入的方式将节点映射到更低维的特征空间。最后利用嵌入后的节点表示,可以为网络分析任务提供帮助。为实现本专利技术的目的,本专利技术提出了一种基于网络节点广度与深度捕捉的网络表示学习方法,其中节点深度信息相似与广度信息相似通过两个不同的神经网络全连接层获得,再根据节点的局部邻居信息,将节点信息进行融合,本专利技术包括以下步骤:步骤1:从互联网中采集网络数据并进行预处理,将其存储于本地文件中;步骤2:基于数据构建邻接矩阵A;步骤3:对A中所有节点进行one-hot编码;步骤4:将节点分别在深度空间与广度空间进行嵌入;步骤5:对A进行N次幂运算,以之作为节点深度的衡量标准;步骤6:为A中每个节点统计度的信息,以之作为节点广度的衡量标准;步骤7:通过拉普拉斯特征映射捕捉节点间的深度相似性,并将其嵌入在深度空间中;步骤8:通过拉普拉斯特征映射捕捉节点间的广度相似性,并将其嵌入在广度空间中;步骤9:将节点的两个空间嵌入拼接并作为最终嵌入空间的输入,通过负采样来捕捉节点间的相似性。步骤10:将网络作为节点的嵌入模型,并用于节点分类任务。所述步骤1采集的数据至少包括网络节点的唯一ID,节点之间的链接信息所述步骤2中的邻接矩阵A的维度为N*N,N为节点数量,A[i,j]代表节点i,j之间是否存在链接,A[i,j]=1则存在,否则无。所述步骤3中的节点one-hot编码维度等于网络中节点数量。所述步骤5是将邻接矩阵A进行求取k次幂,邻接矩阵的k次幂中为1的元素代表节点的k步可达邻居。所述步骤7是利用拉普拉斯特征映射捕捉节点深度相似性,其计算方式如下:lm,ln表示网络中任意节点的深度,min|lm-ln|表示网络中节点深度的最小差,max|lm-ln|表示网络中节点深度的最大差。所述步骤8利用拉普拉斯特征映射捕捉节点深度相似性,其计算方式如下:所述步骤9利用负采样方法来捕捉节点的局部相似性,具体来说,利用一阶与二阶近似性;一阶近似性是指直接相邻的节点,其低维表达应当相近,即1-hop邻居;二阶近似性是指具有共同邻居的节点,其低维表达也应当相近,即2-hop邻居;要求非邻居节点表示相远,利用采样的方法选取非邻居节点对,称为负采样,对每对邻居节点,选取少数(K对)非邻居节点作为负样本;|V|为节点总数,表示节点i的一阶邻居数,表示节点i的二阶邻居数,表示节点v的度所述步骤10中节点分类任务效果的好坏用Micro-F1和Macro-F1表示;Micro-F1:计算出所有类别总的Precision和Recall,然后计算F1Macro-F1:计算出每一个类的Precison和Recall后计算F1,最后将F1平附图说明图1为本专利技术的物品推荐方法流程图。具体实施方式为实现本专利技术的目的,本专利技术提出了一种基于网络节点广度与深度捕捉的网络表示学习方法,其中节点深度信息相似与广度信息相似通过两个不同的神经网络全连接层获得,再根据节点的局部邻居信息,将节点信息进行融合,本专利技术包括以下步骤:步骤1:从互联网中采集网络数据并进行预处理,将其存储于本地文件中;步骤2:基于数据构建邻接矩阵A;步骤3:对A中所有节点进行one-hot编码;步骤4:将节点分别在深度空间与广度空间进行嵌入;步骤5:对A进行N次幂运算,以之作为节点深度的衡量标准;步骤6:为A中每个节点统计度的信息,以之作为节点广度的衡量标准;步骤7:通过拉普拉斯特征映射捕捉节点间的深度相似性,并将其嵌入在深度空间中;步骤8:通过拉普拉斯特征映射捕捉节点间的广度相本文档来自技高网
...

【技术保护点】
1.一种基于网络节点广度与深度捕捉的社交网络用户群组分类方法,其特征在于包括以下步骤:步骤1:从互联网中采集网络数据并进行预处理,将其存储于本地文件中;步骤2:基于网络节点构建邻接矩阵A,其中A为|V|行|V|列的稀疏矩阵,其中V为网络中节点集合,|V|为网络中的节点总数,的A[i,j]代表节点i和节点j之间是否存在链接,A[i,j]=1则存在链接,否则无链接;步骤3:对A中所有节点进行one‑hot编码;步骤4:将节点分别在深度空间与广度空间进行嵌入;步骤5:对A进行N次幂运算,N作为超参数,手工指定,作为最远考虑的节点可达距离,以之作为节点深度的衡量标准;步骤6:为A中每个节点统计度的信息,以之作为节点广度的衡量标准;步骤7:通过拉普拉斯特征映射捕捉节点间的深度相似性,并将其嵌入在深度空间中;步骤8:通过拉普拉斯特征映射捕捉节点间的广度相似性,并将其嵌入在广度空间中;步骤9:将节点的两个空间嵌入拼接并作为最终嵌入空间的输入,通过负采样来捕捉节点间的相似性;步骤10:将学习到的神经网络作为社交网络节点嵌入的模型,输出社交网络节点即社交网络中用户的低维表达,并用于社交网络中用户群组分类任务。...

【技术特征摘要】
1.一种基于网络节点广度与深度捕捉的社交网络用户群组分类方法,其特征在于包括以下步骤:步骤1:从互联网中采集网络数据并进行预处理,将其存储于本地文件中;步骤2:基于网络节点构建邻接矩阵A,其中A为|V|行|V|列的稀疏矩阵,其中V为网络中节点集合,|V|为网络中的节点总数,的A[i,j]代表节点i和节点j之间是否存在链接,A[i,j]=1则存在链接,否则无链接;步骤3:对A中所有节点进行one-hot编码;步骤4:将节点分别在深度空间与广度空间进行嵌入;步骤5:对A进行N次幂运算,N作为超参数,手工指定,作为最远考虑的节点可达距离,以之作为节点深度的衡量标准;步骤6:为A中每个节点统计度的信息,以之作为节点广度的衡量标准;步骤7:通过拉普拉斯特征映射捕捉节点间的深度相似性,并将其嵌入在深度空间中;步骤8:通过拉普拉斯特征映射捕捉节点间的广度相似性,并将其嵌入在广度空间中;步骤9:将节点的两个空间嵌入拼接并作为最终嵌入空间的输入,通过负采样来捕捉节点间的相似性;步骤10:将学习到的神经网络作为社交网络节点嵌入的模型,输出社交网络节点即社交网络中用户的低维表达,并用于社交网络中用户群组分类任务。2.根据权利要求1所述的基于网络节点广度与深度捕捉的网络表示学习方法,其特征在于:所述步骤1采集的数据至少包括网络节点的唯一ID,节点之间的链接信息。3.根据权利要求1所述的基于网络节点广度与深度捕捉的网络表示学习方法,其特征在于:所述步骤3中的节点one-hot编码维度等于网络中节点数量。4.根据权利要求1所述的基于网络节点广度与深度捕捉的网络表示学习方法,其特征在于:所述步骤5是将邻接矩阵A进行求取k次幂,邻接矩阵的k次幂中为1的元素代表节点的k步可达邻居。5.根据权利要求1所述的基于网络节点广度与深度捕捉的网络表示学习方法,其特征在于:利用步骤7中...

【专利技术属性】
技术研发人员:不公告发明人
申请(专利权)人:中森云链成都科技有限责任公司
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1