【技术实现步骤摘要】
基于簇特征学习的学术论文聚类方法及系统
[0001]本专利技术涉及基于机器学习的学术论文分析
,特别涉及一种基于簇特征学习的学术论文聚类方法及系统
。
技术介绍
[0002]学术论文分析是分析学术论文之间的引文关系
(
简称引文网络
)
和论文作者之间的协作关系
(
简称协作网络
)
的过程
。
这些网络可以揭示科学领域的结构和动态,如研究领域
、
有影响力的论文
、
新兴主题和合作模式
。
然而,由于这些网络的庞大规模
、
复杂性和异构性,分析这些网络具有挑战性
。
因此,需要有效和高效的技术来根据这些网络的结构和属性特征将其聚类为有意义的组
。
[0003]深度图聚类是学术论文分析的主要方法之一,它旨在以无监督的方式,根据相似性将实体划分到不同的聚类簇中,是对未知类别数据进行分析的重要方法
。
过去几十年,涌现出了大量的浅层聚类算法,包括基于质心
、
基于密度
、
基于分布
、
层次聚类
、
集成聚类
、
多视图聚类等等
。
尽管这些算法取得了较好的聚类效果,但是它们高度依赖输入数据的特征,不同数据集通常需要不同的相似性度量和分离技术;同时,由于缺乏特征学习能力,这些聚类算法在复杂数据上的表现通常有限
。r/>为了解决特征学习问题,大量聚类相关工作通过降维和表示学习算法进行特征提取或者变换,将原始的复杂数据映射到更容易分离不同聚类簇的特征空间里,然后再进行聚类
。
典型的降维和表示学习算法包括主成分分析
、
核方法
、
谱分解和深度神经网络等
。
得益于深度学习技术的快速发展,基于深度学习的聚类方法
(
简称深度聚类
)
表现优异,在文本
、
图像和音视频等规则的结构化数据中得到了广泛应用和显著成就
。
相较于此类结构化数据,图结构数据被广泛用于描述真实世界中实体及其相互作用,其包含节点和连接它们的边结构,呈现出更复杂的不规则的非结构化特点,传统深度学习技术难以直接应用
。
作为直接对图数据进行学习的深度学习框架,图神经网络
(Graph Neural Networks,GNNs)
通过图的拓扑结构传递聚合节点信息,成功地将图数据映射到低维向量空间,并被用于下游聚类任务
。
因此基于
GNN
的深度图聚类技术得到了广泛关注
。
但,深度图聚类算法的表示学习着眼于单个节点的特征表示,损失函数设计侧重于学习节点自身的特征,对节点之间的联系和结构等其他簇特征的关注较少,通常需要借助下游聚类任务设计引导模型学习簇特征
。
虽然当前主流聚类模型提出的伪标签
、
自训练等机制能够增加模型对簇特征的学习能力,但是表示学习算法本身对簇特征捕获能力的不足仍旧限制了深度图聚类模型在学术论文聚类分析中的应用
。
技术实现思路
[0004]为此,本专利技术提供一种基于簇特征学习的学术论文聚类方法及系统,解决现有深度学习模型在学术论文聚类分析中应用受限的情形,通过提高并强化论文节点簇特征学习能力来提升各论文节点的聚类划分效果
。
[0005]按照本专利技术所提供的设计方案,一方面,提供一种基于簇特征学习的学术论文聚
类方法,其过程包含:
[0006]将待聚类的学术论文引用网络或协作网络对象表示为属性图
G
,其中,利用节点表示学术论文,利用边表示引用网络中学术论文之间的引用关系或协作网络中论文作者之间的协作关系,所有学术论文节点之间的连边关系构成邻接矩阵,并由各学术论文节点标题特征向量组成节点属性矩阵;
[0007]构建图编码器使所有属性图
G
节点编码到特征空间中,并通过预设的组判别损失函数对图编码器进行迭代训练,以学习获取属性图
G
中节点嵌入的簇特征;
[0008]基于
K
‑
means
算法对属性图
G
中包含簇特征的节点嵌入进行聚类分析,获取待聚类学术论文引用网络或协作网络对象的聚类划分结果
。
[0009]进一步地,对图编码器进行迭代训练,包含:
[0010]每次迭代过程中,首先,基于对比学习理论来构建正负样本组,在簇特征学习中通过拉远正负样本组之间的节点分布来学习并获取趋近原始节点分布的正样本节点嵌入,以基于样本节点嵌入来进行聚类分析
。
[0011]进一步地,基于对比学习理论来构建正负样本组,包含:
[0012]利用
dropout
操作对节点属性矩阵中节点标题特征进行随机遮罩,将随机遮罩后的节点属性矩阵作为当前节点属性矩阵,将上一轮迭代中获取的增强邻接矩阵作为当前邻接矩阵,基于当前节点属性矩阵和当前邻接矩阵来构建增强视图,将增强视图作为当前正样本,并通过随机改变节点在节点属性矩阵中的顺序来破坏当前节点属性矩阵的结构,以生成作为当前负样本的破坏图
。
[0013]进一步地,在簇特征学习中通过拉远正负样本组之间的节点分布来学习并获取趋近原始节点分布的正样本节点嵌入,包含:
[0014]首先,将当前正
、
负样本的节点属性矩阵和邻接矩阵分别作为图编码器的输入,基于图编码器中的图神经网络来获取对应正样本节点嵌入向量和负样本节点嵌入向量;
[0015]接着,基于正样本节点嵌入向量和负样本节点嵌入向量的合并聚合,并通过最小化预设二元交叉熵目标损失函数来更新编码器参数;
[0016]然后,基于正样本节点嵌入向量计算正样本节点两两之间的相似度,基于相似度构建相似度矩阵,并为每个节点选取前
k
个高相似度的邻居节点来构建新的连接边,以新的连接边来更新并获取当前迭代轮次中的增强邻接矩阵
。
[0017]进一步地,基于正样本节点嵌入向量和负样本节点嵌入向量的合并聚合,并通过最小化预设二元交叉熵目标损失函数来更新编码器参数,包含:
[0018]首先,将正样本节点嵌入向量和负样本节点嵌入向量进行拼接合并;接着,通过对每一个节点标题特征向量求和来得到样本集合;然后,使用预设二元交叉熵目标损失函数衡量正
、
负样本节点判别准确性
。
[0019]进一步地,预设二元交叉熵目标损失函数表示为其中表示节点
i
嵌入向量合并聚合结果,
y
i
表示节点
i
的标记,当节点
i
来源于正样本时,
y
i
=1,本文档来自技高网...
【技术保护点】
【技术特征摘要】 【专利技术属性】
1.
一种基于簇特征学习的学术论文聚类方法,其特征在于,包含:将待聚类的学术论文引用网络或协作网络对象表示为属性图
G
,其中,利用节点表示学术论文,利用边表示引用网络中学术论文之间的引用关系或协作网络中论文作者之间的协作关系,所有学术论文节点之间的连边关系构成邻接矩阵,并由各学术论文节点标题特征向量组成节点属性矩阵;构建图编码器使所有属性图
G
节点编码到特征空间中,并通过预设的组判别损失函数对图编码器进行迭代训练,以学习获取属性图
G
中节点嵌入的簇特征;基于
K
‑
means
算法对属性图
G
中包含簇特征的节点嵌入进行聚类分析,获取待聚类学术论文引用网络或协作网络对象的聚类划分结果
。2.
根据权利要求1所述的基于簇特征学习的学术论文聚类方法,其特征在于,对图编码器进行迭代训练,包含:每次迭代过程中,首先,基于对比学习理论来构建正负样本组,在簇特征学习中通过拉远正负样本组之间的节点分布来学习并获取趋近原始节点分布的正样本节点嵌入,以基于样本节点嵌入来进行聚类分析
。3.
根据权利要求2所述的基于簇特征学习的学术论文聚类方法,其特征在于,基于对比学习理论来构建正负样本组,包含:利用
dropout
操作对节点属性矩阵中节点标题特征进行随机遮罩,将随机遮罩后的节点属性矩阵作为当前节点属性矩阵,将上一轮迭代中获取的增强邻接矩阵作为当前邻接矩阵,基于当前节点属性矩阵和当前邻接矩阵来构建增强视图,将增强视图作为当前正样本,并通过随机改变节点在节点属性矩阵中的顺序来破坏当前节点属性矩阵的结构,以生成作为当前负样本的破坏图
。4.
根据权利要求2所述的基于簇特征学习的学术论文聚类方法,其特征在于,在簇特征学习中通过拉远正负样本组之间的节点分布来学习并获取趋近原始节点分布的正样本节点嵌入,包含:首先,将当前正
、
负样本的节点属性矩阵和邻接矩阵分别作为图编码器的输入,基于图编码器中的图神经网络来获取对应正样本节点嵌入向量和负样本节点嵌入向量;接着,基于正样本节点嵌入向量和负样本节点嵌入向量的合并聚合,并通过最小化预设二元交叉熵目标损失函数来更新编码器参数;然后,基于正样本节点嵌入向量计算正样本节点两两之间的相似度,基于相似度构建相似度矩阵,并为每个节点选取前
k
个高相似度的邻居节点来构建新的连接边,以新的连接边来更新并获取当前迭代轮次中的增强邻接矩阵
。5.
根据权利要求4所述的基于簇特征学习的学术论文聚类方法,其特征在于,基于正样本节点嵌入向量和负样本节点嵌入向量的合并聚合,并通过最小化预设二元交叉熵目标损失函数来更新编码器参数,包含:首先,将正样本节点嵌入向量和负样本节点嵌入向量进行拼接合并;接着,通过对每一个节点标题特征向量求和来得到样本集合;然后,使用预设二元交叉熵目标损失函数衡量正
技术研发人员:吕鹏,贾萌萌,李智鹏,刘琰,范加兴,
申请(专利权)人:中国人民解放军战略支援部队信息工程大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。