一种基于图卷积神经网络的属性图文献聚类方法技术

技术编号:29401234 阅读:19 留言:0更新日期:2021-07-23 22:38
本发明专利技术公开了一种基于图卷积神经网络的属性图文献聚类方法,属于图数据挖掘领域。具体为利用跨层链接的图卷积神经网络进行文献属性图特征学习;利用深层聚类估计模型从节点特征中估计最优的聚类簇数目;交替执行上述两个步骤完成训练;利用训练完成的模型得到待聚类的所有文献属性图节点的特征和聚类簇估计数目;以所述特征和聚类簇估计数目为输入,利用k均值聚类方法得到文献属性图聚类结果。训练跨层链接的图卷积神经网络时,采用基于节点成对相似度的自分离正则化项,可促进同簇节点的特征相似,不同簇节点的特征远离,从而有效提升图聚类的性能。聚类估计模块实现数据驱动的聚类簇数目估计,使整个系统更适用于无标签的真实数据环境。

【技术实现步骤摘要】
一种基于图卷积神经网络的属性图文献聚类方法
本专利技术属于图数据挖掘领域,具体地说,是涉及一种基于图卷积神经网络的属性图文献聚类方法。
技术介绍
属性图聚类是图数据挖掘领域中的一项基本任务,其目的是根据节点属性和图结构信息将图中的节点划分为互不相交的簇。与只使用图结构信息的传统图聚类方法相比,属性图聚类更适用于节点具有丰富内容信息的场景。属性图聚类在社区发现,蛋白质功能模块检测、金融网络欺诈检测等领域有着广泛的现实应用。目前已经提出了大量基于深度模型的图聚类工作。与浅层图聚类方法相比,深层方法更善于捕获图中的非线性和复杂的节点关系,有助于提高聚类性能。目前,大多数现有的深图聚类方法都采用两步式框架来完成聚类任务:特征学习步骤使用深度模型学习低维节点特征;聚类步骤执行传统的聚类方法完成图聚类任务,例如k均值和谱聚类等。特征学习步骤能否学习到属性图的真实特征对图聚类任务至关重要,早期的深度模型方法通常使用各种图自编码器(Graphautoencoders,GAE)来捕获图结构信息,但GAEs仅利用图的结构特征完成神经网络的训练,忽略了属性图本文档来自技高网...

【技术保护点】
1.一种基于图卷积神经网络的属性图文献聚类方法,其特征在于:/n步骤(1)、利用跨层链接的图卷积神经网络进行文献属性图特征学习,包括编、解码两阶段,得到所有图节点的特征z,用于完成在特征空间中图节点自然簇结构的分离;/n步骤(2)、利用深层聚类估计模型从节点特征z中估计最优的聚类簇数目;/n步骤(3)、交替执行上述两个步骤,直到达到最大迭代数目完成训练;/n步骤(4)、利用训练完成的跨层链接的图卷积神经网络和深层聚类估计模型得到待聚类的所有文献属性图节点的特征和聚类簇估计数目;以所述特征和聚类簇估计数目为输入,利用k均值聚类方法得到文献属性图聚类结果。/n

【技术特征摘要】
1.一种基于图卷积神经网络的属性图文献聚类方法,其特征在于:
步骤(1)、利用跨层链接的图卷积神经网络进行文献属性图特征学习,包括编、解码两阶段,得到所有图节点的特征z,用于完成在特征空间中图节点自然簇结构的分离;
步骤(2)、利用深层聚类估计模型从节点特征z中估计最优的聚类簇数目;
步骤(3)、交替执行上述两个步骤,直到达到最大迭代数目完成训练;
步骤(4)、利用训练完成的跨层链接的图卷积神经网络和深层聚类估计模型得到待聚类的所有文献属性图节点的特征和聚类簇估计数目;以所述特征和聚类簇估计数目为输入,利用k均值聚类方法得到文献属性图聚类结果。


2.根据权利要求1所述的一种基于图卷积神经网络的属性图文献聚类方法,其特征在于:步骤(1)进一步包括以下步骤,
步骤(1.1)属性图数据编码:对属性图数据进行编码操作,设文献属性图输入为G=(A,X),其中A为邻接矩阵,若文献vi与vj之间有引用关系,则Aij=1,否则Aij=0,X是文献属性矩阵,每一个行向量代表对一个文献的内容描述,其中,X中第i个行向量xi代表对文献vi内容的描述,图卷积神经网络从第l-1到第l层的传播规则如下:



其中N(vi|A)表示在以邻接矩阵A表示的引文网络中,包括文献vi以及与文献vi有引用关系的文献,即邻居文献,i=1,...,n,即共有n篇文献;W(l)是第l层的参数矩阵。deg(v)表示节点v的度;当l=1时,式(1)中即第一层图卷积神经网络聚合了邻居文献的原始特征,Relu(·)是非线性激活函数;
跨层链接的图卷积神经网络将每层图卷积的输出向量拼接起来:以表示图中节点vi第l层图卷积的输出,图中节点vi跨层链接的图卷积神经网络的编码结果di为每层图卷积神经网络对图中节点vi的输出的拼接向量,表达如下:



将编码结果经过线性映射操作,输出图卷积神经网络学习到的图中节点vi的节点特征zi;
步骤(1.2)节点特征数据解码:
使用多层感知机实现属性矩阵的解码:



其中,表示节点特征zi的解码输出,de表示编码向量zi的维度,MLPs表示s层的多层感知机,WD是解码器的参数。


3.根据权利要求2所述的一种基于图卷积神经网络的属性图文献聚类方法,其特征在于:
X的构建方法为:(1)消除所有文献文档中的虚词;(2)消除所有文献文档中频率小于10的词汇;(3)以剩余词汇构建每篇文献的词向量特征,若第j个词汇在文献vi中出现,则xij=1,否则xij=0。


4.根据权利要求1所述的一种基于图卷...

【专利技术属性】
技术研发人员:冀俊忠梁烨雷名龙
申请(专利权)人:北京工业大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1