【技术实现步骤摘要】
一种基于节点多阶邻居信息重要性的Web网络社区划分方法
[0001]本专利技术涉及Web数据挖掘
,特别涉及一种基于节点多阶邻居信息重要性的Web网络社区划分方法。
技术介绍
[0002]随着引文网络、社交网络、Web网络、推荐系统、生物化学分子结构等图数据不断被挖掘,人们开始了对网络结构的探索和网络信息的提取,尤其是蕴含丰富信息的Web网络。在互联网无处不在的今天,Web已经成为信息制造、加工、处理和发布的主要平台,这个平台提供了娱乐、财经、广告、商务、体育、教育等各种信息服务。与传统数据相比,Web数据具有海量规模、无组织、异构性、分散性、动态性等特点。这些特性使得传统方法难以有效利用Web数据,如何将Web上的数据归纳和提升为知识,便于用户进行搜索和查询成为了互联网技术发展中的重要问题。尽管Web数据是无序和分散的,但是数据之间存在隐含规律以及关联性。从结构上看,Web网络通常由多个社区组成,而Web社区可以松散地被定义为基于某个特定主题的,相互链接的Web页面集。处于同一社区中的Web页面在内容上有一定的相似性,同时相互连接的Web页面也存在差异性,从而可以相互补充社区的属性信息,而不同社区间的Web页面内容则具有较大差异性。
[0003]从Web上可以获取大量信息(包括内容信息与结构信息),我们可以利用这些信息在无序和分散的互联网环境中,发现Web页面所属的互联网社区,并且从互联网中系统地抽取这些社区,这一过程被称为Web社区划分。通过对Web进行社区划分可以帮助用户对Web的知识性和社会性做 ...
【技术保护点】
【技术特征摘要】
1.一种基于节点多阶邻居信息重要性的Web网络社区划分方法,其特征在于,包括以下步骤:步骤1、将Web网络表示为图的形式,利用图中节点代表Web页面,使用特征矩阵描述节点的属性信息,利用节点间的边代表Web页面间的链接;步骤2、预处理Web网络数据,即将原始图邻接矩阵进行对称归一化得到归一化邻接矩阵,将节点特征矩阵进行特征变换f
θ
(X)得到新的节点特征;步骤3、利用归一化邻接矩阵传播邻居特征来得到包含节点邻居信息的特征,随着传播范围不断增大,可以得到节点周围的多阶邻居特征信息;步骤4、利用注意力机制计算节点周围各阶邻居信息的重要性;步骤5、按照重要性将不同阶邻居信息聚合,生成新的节点特征,使得每个节点特征包含更丰富的更全面的社区信息;步骤6、基于步骤5新的节点特征更新Web网络边权重,通过聚合后的节点特征具有更高的置信度,在相似度更高的两个节点之间的边赋予更高的权重;步骤7、迭代训练步骤2到步骤6直到满足终止条件,将Web网络中社区预测标签一致的节点代表的Web页面归为同一网络社区,完成Web网络的社区划分。2.根据权利要求1所述的一种基于节点多阶邻居信息重要性的Web网络社区划分方法,其特征在于,所述步骤1的具体过程为:将Web网络表示为图的形式,记作G(V,E),利用图中节点集V=(v1,v2,
…
,v
k
,
…
,v
n
)表示网络中的全部Web页面构成的集合,n为Web页面节点数量,第k个节点v
k
代表Web网络中的第k个Web页面,其中k的范围在1到n之间,通常我们用向量X
k
描述第k个Web页面v
k
的属性信息;利用图中的边集E=(e1,e2,
…
,e
j
,
…
,e
m
)表示Web页面间的链接集合,m为边的数量,其中第j条边e
j
表示网络中的第j个链接,其中j的范围在1到m之间;另外,在收集Web网络信息的同时会得到少量Web页面所属的社区类别信息,称之为标签。3.根据权利要求1所述的一种基于节点多阶邻居信息重要性的Web社区划分方法,其特征在于,所述步骤2的具体过程为:Web网络数据主要包括结构数据即网络的初始邻接矩阵和内存数据即Web页面属性,预处理Web网络数据,可以得到适合信息聚合的归一化邻接矩阵和新的节点特征;步骤2.1、计算Web网络中每个节点的度,即直接与该节点连接的边的数量,节点v
i
的度记做d
i
;步骤2.2、在Web网络上每个节点加上自环,具体地,将邻接矩阵的对角线置1,利用节点的度计算网络图归一化邻接矩阵计算方式如(1)所示;其中,D为度矩阵,I为单位矩阵,A为初始邻接矩阵;步骤2.3、获得的节点属性通常是稀疏而不充分的,但是描述节点属性的向量长度却往往比较长;因此通过权重矩阵将初始向量变换为较短的向量,也就是获得新的节点特征,计算方法如式(2)所示:f
θ
(X)=ReLU(XW
(1)
)W
(2)
(2)其中,节点属性特征矩阵X经过映射函数f
θ
(X)生成新的特征矩阵,W
(1)
为第一个权重矩
阵,W
(2)
为第二个权重矩阵,ReLU=max(0,x)是一个非线性函数;经过两个权重矩阵和非线性函数,初始Web页面属性向量变为长度为c的特征向量,其中c为社区类别数目,所有Web页面的特征向量组成了特征矩阵。4.根据权利要求1所述的一种基于节点多阶邻居信息重要性的Web社区划...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。