当前位置: 首页 > 专利查询>山西大学专利>正文

一种基于节点多阶邻居信息重要性的Web网络社区划分方法技术

技术编号:35643945 阅读:19 留言:0更新日期:2022-11-19 16:36
本发明专利技术涉及Web数据挖掘技术领域,公开了一种基于多阶邻居信息重要性的Web网络社区划分方法。在该方法中,网络社区的划分过程包括Web网络的图表示、预处理图数据、特征传播、计算节点周围邻居重要性以及更新图拓扑等环节。将Web网络表示成图的形式后,节点的属性能够描述Web页面,网络拓扑能够代表Web页面之间的联系。由于单个Web页面信息往往不够全面,因此在图拓扑的基础上可以进行特征传播,进而聚合节点与周围邻居的特征能更好地描述某一社区的特性。同时采用学习节点多阶邻居信息重要性的策略,能够更好地区分不同阶邻居信息对于Web页面的重要性。该方法在进行社区结构特征描述时能够充分反映社区综合特征,使社区划分结果的合理性和准确性得到提高。结果的合理性和准确性得到提高。结果的合理性和准确性得到提高。

【技术实现步骤摘要】
一种基于节点多阶邻居信息重要性的Web网络社区划分方法


[0001]本专利技术涉及Web数据挖掘
,特别涉及一种基于节点多阶邻居信息重要性的Web网络社区划分方法。

技术介绍

[0002]随着引文网络、社交网络、Web网络、推荐系统、生物化学分子结构等图数据不断被挖掘,人们开始了对网络结构的探索和网络信息的提取,尤其是蕴含丰富信息的Web网络。在互联网无处不在的今天,Web已经成为信息制造、加工、处理和发布的主要平台,这个平台提供了娱乐、财经、广告、商务、体育、教育等各种信息服务。与传统数据相比,Web数据具有海量规模、无组织、异构性、分散性、动态性等特点。这些特性使得传统方法难以有效利用Web数据,如何将Web上的数据归纳和提升为知识,便于用户进行搜索和查询成为了互联网技术发展中的重要问题。尽管Web数据是无序和分散的,但是数据之间存在隐含规律以及关联性。从结构上看,Web网络通常由多个社区组成,而Web社区可以松散地被定义为基于某个特定主题的,相互链接的Web页面集。处于同一社区中的Web页面在内容上有一定的相似性,同时相互连接的Web页面也存在差异性,从而可以相互补充社区的属性信息,而不同社区间的Web页面内容则具有较大差异性。
[0003]从Web上可以获取大量信息(包括内容信息与结构信息),我们可以利用这些信息在无序和分散的互联网环境中,发现Web页面所属的互联网社区,并且从互联网中系统地抽取这些社区,这一过程被称为Web社区划分。通过对Web进行社区划分可以帮助用户对Web的知识性和社会性做出评估,有利于对客户进行商品智能推荐,还可以研究对某个方面感兴趣的用户的组织形式,为信息查询提供有效便捷的途径。Web社区划分使有效利用链接信息加强现有搜索和浏览技术成为可能,能够系统地从Web中抽取社区,同时还具有实现Web自动分类、为用户提供最及时可靠的信息、帮助了解Web的进化过程等重要意义,因此已经引起国内外学术界和产业界的高度重视。
[0004]现有的社区划分方法如《Authoritative sources in a hyperlinked environment》和《Self

Organization and Identification of Web Communities》主要通过聚集密度、网络中的链接密集的团块等作为社区可能存在的特征,但缺乏对Web页面信息的使用。通常Web页面存在关键字可以作为Web页面的属性信息描述Web页面的特征,另外,在Web页面信息获取的过程中也能获得少量的社区类别信息,换句话说我们能够得到少量Web页面所属的社区作为标签信息进行社区发现。另一方面,单个Web页面属性信息往往不全面,而利用Web页面之间的链接聚合Web页面信息,能够一定程度上补充单个Web页面所缺失的信息。
[0005]综上所述,Web社区的划分通常依赖网络拓扑结构,而利用Web页面信息能够进一步补充社区特征,有利于寻找具有社区特征的节点集合而发现社区存在的可能性。因此,社区特征的确定是非常重要的,所谓内部稠密、外部稀疏仅仅是社区比较公认的模糊定义,度也只是衡量节点和社区关系的一个方面。现有方法主要通过聚集密度、网络中的链接密集
的团块等作为社区可能性的特征,但是缺乏Web页面信息的使用,导致社区划分的信息利用不充分。因此,如何对网络节点不同阶邻居信息进行有效的重要性度量和聚合,是实现高质量Web社区划分的关键问题。

技术实现思路

[0006]针对上述问题,本专利技术的目的是利用Web页面信息和网络结构进行有效的Web网络特征提取,进而实现对Web网络社区的可靠划分,即提供一种基于节点多阶邻居信息重要性的Web网络社区划分方法。本专利技术将Web网络表示为图的形式,其中Web页面作为图的节点,将Web页面之间的链接作为图的边,相应地,有边为1,无边为0。本专利技术根据节点多阶邻居信息重要性利用邻居对节点信息进行补充,为Web网络的社区划分提供了一种可靠方法。在该方法中,网络社区的划分过程包括Web网络的图表示、预处理图数据、特征传播、计算节点周围邻居重要性以及更新图拓扑等环节。本专利技术的主要参数包括:节点的度、节点的相似度、图归一化邻接矩阵、注意力系数等,其中节点的度表示与一个Web页面存在链接关系的Web页面数量;特征传播是指Web页面通过邻接矩阵得到邻居页面信息的过程;节点的相似度用于描述网络中两个Web页面在特征变换和聚合后的相关性;图归一化邻接矩阵代表了不同Web页面之间的联系;注意力系数表明了Web页面的各阶邻居信息对于该Web页面的重要性。
[0007]为实现上述目的本专利技术提供如下技术方案:
[0008]本专利技术提供一种基于节点多阶邻居信息重要性的Web网络社区划分方法,包括以下步骤:
[0009]步骤1、将Web网络表示为图的形式,利用图中节点代表Web页面,使用特征矩阵描述节点的属性信息,利用节点间的边代表Web页面间的链接;
[0010]步骤2、预处理Web网络数据,即将原始图邻接矩阵进行对称归一化得到归一化邻接矩阵,将节点特征矩阵进行特征变换f
θ
(X)得到新的节点特征;
[0011]步骤3、利用归一化邻接矩阵传播邻居特征来得到包含节点邻居信息的特征,随着传播范围不断增大,可以得到节点周围的多阶邻居特征信息;
[0012]步骤4、利用注意力机制计算节点周围各阶邻居信息的重要性;
[0013]步骤5、按照重要性将不同阶邻居信息聚合,生成新的节点特征,使得每个节点特征包含更丰富的更全面的社区信息;
[0014]步骤6、基于步骤5新的节点特征更新Web网络边权重,通过聚合后的节点特征具有更高的置信度,在相似度更高的两个节点之间的边赋予更高的权重;
[0015]步骤7、迭代训练步骤2到步骤6直到满足终止条件,将Web网络中社区预测标签一致的节点代表的Web页面归为同一网络社区,完成Web网络的社区划分。
[0016]进一步,所述步骤1的具体过程为:将Web网络表示为图的形式,记作G(V,E),利用图中节点集V=(v1,v2,

,v
k
,

,v
n
)表示网络中的全部Web页面构成的集合,n为Web页面节点数量,第k个节点v
k
代表Web网络中的第k个Web页面,其中k的范围在1到n之间,通常我们用向量X
k
描述第k个Web页面v
k
的属性信息;利用图中的边集E=(e1,e2,

,e
j
,

,e
m
)表示Web页面间的链接集合,m为边的数量,其中第j条边e
j
表示网络中的第j个链接,其中j的范围在1到m之间;另外,我们在收集Web网络信息的同时会得到少量Web页面所属的社区类别信息,我们称之为标签。
[0017]进一步,所述步骤2的具体过程为:Web网本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于节点多阶邻居信息重要性的Web网络社区划分方法,其特征在于,包括以下步骤:步骤1、将Web网络表示为图的形式,利用图中节点代表Web页面,使用特征矩阵描述节点的属性信息,利用节点间的边代表Web页面间的链接;步骤2、预处理Web网络数据,即将原始图邻接矩阵进行对称归一化得到归一化邻接矩阵,将节点特征矩阵进行特征变换f
θ
(X)得到新的节点特征;步骤3、利用归一化邻接矩阵传播邻居特征来得到包含节点邻居信息的特征,随着传播范围不断增大,可以得到节点周围的多阶邻居特征信息;步骤4、利用注意力机制计算节点周围各阶邻居信息的重要性;步骤5、按照重要性将不同阶邻居信息聚合,生成新的节点特征,使得每个节点特征包含更丰富的更全面的社区信息;步骤6、基于步骤5新的节点特征更新Web网络边权重,通过聚合后的节点特征具有更高的置信度,在相似度更高的两个节点之间的边赋予更高的权重;步骤7、迭代训练步骤2到步骤6直到满足终止条件,将Web网络中社区预测标签一致的节点代表的Web页面归为同一网络社区,完成Web网络的社区划分。2.根据权利要求1所述的一种基于节点多阶邻居信息重要性的Web网络社区划分方法,其特征在于,所述步骤1的具体过程为:将Web网络表示为图的形式,记作G(V,E),利用图中节点集V=(v1,v2,

,v
k
,

,v
n
)表示网络中的全部Web页面构成的集合,n为Web页面节点数量,第k个节点v
k
代表Web网络中的第k个Web页面,其中k的范围在1到n之间,通常我们用向量X
k
描述第k个Web页面v
k
的属性信息;利用图中的边集E=(e1,e2,

,e
j
,

,e
m
)表示Web页面间的链接集合,m为边的数量,其中第j条边e
j
表示网络中的第j个链接,其中j的范围在1到m之间;另外,在收集Web网络信息的同时会得到少量Web页面所属的社区类别信息,称之为标签。3.根据权利要求1所述的一种基于节点多阶邻居信息重要性的Web社区划分方法,其特征在于,所述步骤2的具体过程为:Web网络数据主要包括结构数据即网络的初始邻接矩阵和内存数据即Web页面属性,预处理Web网络数据,可以得到适合信息聚合的归一化邻接矩阵和新的节点特征;步骤2.1、计算Web网络中每个节点的度,即直接与该节点连接的边的数量,节点v
i
的度记做d
i
;步骤2.2、在Web网络上每个节点加上自环,具体地,将邻接矩阵的对角线置1,利用节点的度计算网络图归一化邻接矩阵计算方式如(1)所示;其中,D为度矩阵,I为单位矩阵,A为初始邻接矩阵;步骤2.3、获得的节点属性通常是稀疏而不充分的,但是描述节点属性的向量长度却往往比较长;因此通过权重矩阵将初始向量变换为较短的向量,也就是获得新的节点特征,计算方法如式(2)所示:f
θ
(X)=ReLU(XW
(1)
)W
(2)
(2)其中,节点属性特征矩阵X经过映射函数f
θ
(X)生成新的特征矩阵,W
(1)
为第一个权重矩
阵,W
(2)
为第二个权重矩阵,ReLU=max(0,x)是一个非线性函数;经过两个权重矩阵和非线性函数,初始Web页面属性向量变为长度为c的特征向量,其中c为社区类别数目,所有Web页面的特征向量组成了特征矩阵。4.根据权利要求1所述的一种基于节点多阶邻居信息重要性的Web社区划...

【专利技术属性】
技术研发人员:白亮贺连成杜航原
申请(专利权)人:山西大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1