System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 面向引文网络的频率自适应静态异质图节点分类方法技术_技高网
当前位置: 首页 > 专利查询>南开大学专利>正文

面向引文网络的频率自适应静态异质图节点分类方法技术

技术编号:40193203 阅读:12 留言:0更新日期:2024-01-26 23:55
本发明专利技术公开了一种面向引文网络的频率自适应静态异质图节点分类方法,首先从引文网络数据中提取出特征,构建静态异质图;再忽略静态异质图的顶点类型和边类型,通过受约束的马尔可夫过程得到转移状态矩阵收敛时图的稳定的转移状态,再将随机游走概率大于给定阈值的顶点对作为新的类型的边加入到静态异质图中;再通过空间线性映射将不同的顶点类型从原始空间映射到同一向量空间中,再对每个顶点来自一阶邻居的信号分离高频和低频信号,并通过个性化注意力机制为每个顶点聚合高低频信号;最后,通过空间线性映射将顶点的表示向量映射回原始空间,通过加权交叉熵和受约束的注意力机制训练模型,再通过分类器将引文网络数据的顶点进行分类。

【技术实现步骤摘要】

本专利技术属于大数据下的图数据处理领域,具体是一种面向引文网络的频率自适应静态异质图节点分类方法


技术介绍

1、随着大数据时代的到来,静态异质图(heterogeneous graph)上的顶点分类问题已成为热门研究领域。静态异质图包含多种类型的顶点,每个顶点均携带着特征,并且顶点之间存在各种复杂关系,可以被用来建模各种复杂的交互场景。分类问题作为一个基本方法,在各种场景下都有着广泛的应用,例如:社交网络中的用户分类、学术网络中的顶点分类、化学分子分类、推荐系统中的商品分类以及异常检测等实际问题。

2、大多数静态异质图顶点分类的图神经网络框架都是继承自静态同质图神经网络的基本框架,基于邻居采样、消息传递和消息聚合这一范式。然而,该框架在处理静态异质图时存在一些局限性,如该框架本质上是根据相似度传递邻居的特征,本质上是一个低频滤波器(只利用相似的特征),不能利用顶点之间的差异特征;此外,该框架在捕获高阶邻居的信息时会存在过拟合的现象。为了克服这些困难,一些研究提出了很多改进的静态异质图顶点分类方法,如异质图注意力网络(han)和异质图卷积注意力网络(hagcn)等都是从注意力机制的角度从邻居顶点获得信息。

3、基于上述描述,设计一种频率自适应的异质图神经网络,并为每个顶点个性化地选择自身所需的高、低频信号并完成顶点分类任务,具有重要的研究意义和应用价值。


技术实现思路

1、针对现有技术的不足,本专利技术拟解决的技术问题是,提供一种面向引文网络的频率自适应静态异质图节点分类方法。

2、本专利技术解决所述技术问题的技术方案是,提供一种面向引文网络的频率自适应静态异质图节点分类方法,其特征在于,该方法包括以下步骤:

3、步骤1、从引文网络数据中提取出每个顶点的特征向量x,第c种顶点类型的顶点特征向量记为xc;同时建立静态异质图;再将静态异质图中所有的顶点划分为训练集、验证集和测试集;

4、步骤2、利用受约束的马尔可夫过程对静态异质图进行处理,得到稳定的转移状态;

5、步骤3、结合步骤2得到稳定的转移状态,过滤出指定顶点类型的顶点集合,并且选择该顶点集合内的随机游走概率大于给定阈值θ的顶点对,θ为超参数;再将这些顶点对作为新的类型的边加入到步骤1得到的静态异质图中,得到含稳态边的静态异质图;

6、步骤4、空间线性映射:对含稳态边的静态异质图中的每种顶点类型分别各自学习一个线性函数,将不同的顶点类型从原始空间映射到同一向量空间中,如式(3)所示:

7、(3)

8、式(3)中,第c种顶点类型的顶点特征向量xc通过式(3)映射到同一向量空间中,记为hc;wc和bc分别表示第c种顶点类型的权重矩阵和偏移矩阵,它们是可学习的参数;σ是sigmoid激活函数;

9、步骤5、在线性映射后的同一向量空间内对每个顶点来自一阶邻居的信号依次进行高低频信号分离和个性化注意力机制聚合,得到每个顶点在线性映射后的空间中的向量表示;

10、步骤6、通过线性变换将任意一个顶点i在线性映射后的空间中的向量表示映射回同一向量空间中,再引入残差连接,得到顶点i的新向量表示;

11、步骤7、在受约束的注意力机制下进行分类:

12、s7.1、经过步骤6映射回同一向量空间后,根据每个顶点i的新向量表示进行分类,得到顶点i的新向量表示的预测顶点类别;

13、s7.2、通过受约束的注意力机制增强注意机制中高频信号和低频信号之间的差异,受约束的注意力机制的损失函数lα如式(12)所示:

14、(12)

15、式(12)中,cu和cv表示顶点u和顶点v的标签;n(v)表示与顶点v具有相同顶点类型的邻居,表示异或操作;γv表示与顶点v的标签不同的邻居的比例;和是超参数;v是所有顶点个数,是顶点v的低频注意力分数;是顶点v的高频注意力分数;

16、s7.3、结合加权交叉熵损失函数和受约束的注意力机制lα得到在进行分类时的损失函数l,如式(13)所示:

17、(13)

18、式(13)中,为加权交叉熵损失函数,wi是顶点i在损失函数l中的权重,yi顶点i的真实顶点类别;β是用来平衡损失函数lα的超参数;

19、s7.4、利用损失函数l在训练集上对模型进行一次迭代训练,当在验证集上预测类别的准确率超过m次都没有提升时,m为超参数,返回步骤4;直至模型收敛,然后对于测试集中的第m个顶点,利用步骤6得到它的新向量表示,再通过步骤s7.1来预测测试集中顶点的顶点类别。

20、与现有技术相比,本专利技术的有益效果在于:

21、(1)本专利技术首次提出了在静态异质图上使用马尔可夫过程来发现拓扑连接紧密的高阶邻居并加以应用,在避免过平滑的情况下来捕获高阶的邻居;并且首次提出了在静态异质图上使用高频信号的思路,通过共享注意力机制的方式为每个顶点分离来自它邻居的高低频信号,之后再为每个顶点个性化地聚合高低频信号。

22、(2)本专利技术首先从输入的数据集中,提取出实体的特征、类型以及实体之间复杂的关系,构建一个静态异质图;再忽略静态异质图的顶点类型和边类型,通过受约束的马尔可夫过程得到转移状态矩阵收敛时图的稳定的转移状态,再将随机游走概率大于给定阈值θ的顶点对作为新的类型的边加入到静态异质图中,得到含稳态边的静态异质图;再通过空间线性映射将不同的顶点类型从原始空间映射到同一向量空间中,再对每个顶点来自一阶邻居的信号分离高频和低频信号,并通过个性化注意力机制为每个顶点聚合高低频信号;最后,通过空间线性映射将顶点的表示向量映射回原始空间,通过加权交叉熵和受约束的注意力机制训练模型,再通过分类器将顶点进行分类。

23、(3)本专利技术不仅可以自适应地利用高频和低频信号,从而可以更准确地分类具有更灵活拓扑结构的顶点,而且在静态异质图中捕获高阶邻居信息时不会发生过平滑现象。

24、(4)本专利技术解决了静态异质图上的顶点分类任务,是一种半监督学习算法,即利用已知的部分顶点的标签,通过训练模型来预测剩余顶点的类别。

25、(5)本专利技术提可以避免在对高频信号的需求较少时退化为低频信号,以提高分类准确性和泛化能力。

26、(6)在引文网络的两个真实数据集中,本专利技术在顶点分类的各项指标上明显优于现有的方法。

本文档来自技高网...

【技术保护点】

1.一种面向引文网络的频率自适应静态异质图节点分类方法,其特征在于,该方法包括以下步骤:

2.根据权利要求1所述的面向引文网络的频率自适应静态异质图节点分类方法,其特征在于,步骤1具体是:将引文网络数据中的实体携带的多模态信息进行统计分析,提取出每个顶点的特征向量X;引文网络数据的顶点类型为作者、论文、术语和会场,其中第c种类型的顶点的特征向量记为Xc;同时利用引文网络数据中的顶点类型和顶点之间不同的边类型建立一个静态异质图;再将静态异质图中所有的顶点按照比例随机划分为训练集、验证集和测试集;

3.根据权利要求1所述的面向引文网络的频率自适应静态异质图节点分类方法,其特征在于,步骤2具体是:

4.根据权利要求3所述的面向引文网络的频率自适应静态异质图节点分类方法,其特征在于,步骤S2.3中,广义图扩散的计算公式为;表示前一次迭代的随机游走概率;

5.根据权利要求1所述的面向引文网络的频率自适应静态异质图节点分类方法,其特征在于,步骤5具体是:

6.根据权利要求5所述的面向引文网络的频率自适应静态异质图节点分类方法,其特征在于,步骤S5.1中,权重系数ωst的计算公式如式(4)所示:

7.根据权利要求5所述的面向引文网络的频率自适应静态异质图节点分类方法,其特征在于,步骤S5.2具体是:先计算获取源顶点s和目标顶点t之间的低频信号的注意力权重和高频信号的注意力权重,其中等于源顶点s和目标顶点t之间的注意力权重αst,等于权重系数ωst依次进行取倒数和Softmax归一化;然后通过源顶点s的向量表示hs加上源顶点s的一阶邻居集合N(s)中的向量表示的加权平均值,得到源顶点s的低频信号的向量表示;同时通过源顶点s的向量表示hs减去源顶点s的一阶邻居集合N(s)中的所有向量表示的加权平均值,得到源顶点s的高频信号的向量表示;

8.根据权利要求7所述的面向引文网络的频率自适应静态异质图节点分类方法,其特征在于,步骤S5.2中,注意力权重和的计算公式如式(6)所示:

9.根据权利要求1所述的面向引文网络的频率自适应静态异质图节点分类方法,其特征在于,步骤6的具体过程如式(10)所示:

10.根据权利要求1所述的面向引文网络的频率自适应静态异质图节点分类方法,其特征在于,步骤S7.1中,顶点i的新向量表示的预测顶点类别的计算公式如式(11)所示:

...

【技术特征摘要】

1.一种面向引文网络的频率自适应静态异质图节点分类方法,其特征在于,该方法包括以下步骤:

2.根据权利要求1所述的面向引文网络的频率自适应静态异质图节点分类方法,其特征在于,步骤1具体是:将引文网络数据中的实体携带的多模态信息进行统计分析,提取出每个顶点的特征向量x;引文网络数据的顶点类型为作者、论文、术语和会场,其中第c种类型的顶点的特征向量记为xc;同时利用引文网络数据中的顶点类型和顶点之间不同的边类型建立一个静态异质图;再将静态异质图中所有的顶点按照比例随机划分为训练集、验证集和测试集;

3.根据权利要求1所述的面向引文网络的频率自适应静态异质图节点分类方法,其特征在于,步骤2具体是:

4.根据权利要求3所述的面向引文网络的频率自适应静态异质图节点分类方法,其特征在于,步骤s2.3中,广义图扩散的计算公式为;表示前一次迭代的随机游走概率;

5.根据权利要求1所述的面向引文网络的频率自适应静态异质图节点分类方法,其特征在于,步骤5具体是:

6.根据权利要求5所述的面向引文网络的频率自适应静态异质图节点分类方法,其特征在于,步骤s5.1中,权重系数ωst的计算公...

【专利技术属性】
技术研发人员:宋春瑶廉亚红李玉奇袁晓洁
申请(专利权)人:南开大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1