一种通用域自适应的节点分类方法及装置制造方法及图纸

技术编号：40194403 阅读：8 留言：0更新日期：2024-01-26 23:57

本发明专利技术提供一种通用域自适应的节点分类方法及装置，所述方法包括：构建目标网络的图结构；将图结构输入节点分类模型，以使该节点分类模型基于置信度和熵两个指标来获取每一节点的可迁移性分数；基于可迁移性分数，将对应的节点划入共有集、不确定集或未知集。本发明专利技术可以基于不确定性度量以及对比学习，充分学习类别可判别性和领域不变性节点表征，以实现通用域自适应节点分类。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及图数据挖掘领域，具体涉及一种通用域自适应的节点分类方法及装置。

技术介绍

1、近年来，随着互联网和大数据的迅猛发展，图结构数据成为广泛应用的数据组织形式。例如，在社交和电商领域，大规模web系统产生的社交网络数据等；在网络安全领域，各大安全产品可视化web界面中的资产关系图、攻击向量图等。其中，节点分类是图数据挖掘最重要的任务之一，目的是利用已标注节点学习网络语义信息，生成节点特征表示，识别未标注节点的类别。

2、在现实世界中，由于标签数据是稀缺的，这使得训练一个高效的节点分类器是困难的。因此，需要一种迁移学习技术，使知识能从源网络迁移到目标网络，这被称作域自适应技术。近些年来，域自适应技术已经取得了不错的进展，但大多数方法要求源域和目标域的标签集需要相同，然而实际上这个假设条件很难满足。为此，通用域自适应技被提出，它移除了域间标签集关系的限制，使得域自适应技术能够应用在更广泛的场景下。在通用域自适应的场景中，每个域都有自己独立的私有类(源域私有类、目标域私有类)，以及两个域的共有类。通用域自适应要求对在共享标签空间中的目标域样本进行分类，并将其他的目标域样本标记为“未知”。由于标签空间关系未知，无法决定用源域中哪一部分数据去适配目标域中哪一部分数据，所以通用域自适应的关键在于寻找共享标签空间。

3、目前，通用域自适应技术广泛应用在计算机视觉领域，其中基于特征表示的通用域自适应方法是现阶段的主流方法，其目的在于学习域不变性特征表示来减轻域间差异。例如有国外学者对一般域自适应方法进行改进，通过

4、因此，针对跨网络的节点分类问题，需要提出一种新颖、有效的通用域适应方法。现对通用域自适应节点分类任务定义如下：给定一个具有丰富节点标签的源网络和一个缺乏节点标签的目标网络，两个网络分别有私有类以及共享的共有类，利用网络结构信息、节点属性信息、以及源网络中丰富的标签信息来实现目标网络的节点分类。

技术实现思路

1、本专利技术的目的是针对现有通用域自适应方法的不足，提出了一种通用域自适应的节点分类方法及装置，该方法基于不确定性度量以及对比学习，充分学习类别可判别性和领域不变性节点表征，以实现通用域自适应节点分类。

2、为实现上述目的，本专利技术采用的技术方案如下：

3、一种通用域自适应的节点分类方法，包括：

4、构建目标网络的图结构；

5、将所述图结构输入节点分类模型，以使该节点分类模型基于置信度和熵两个指标来获取每一节点的可迁移性分数；

6、基于所述可迁移性分数，将对应的节点划入共有集、不确定集或未知集。

7、进一步地，所述使该节点分类模型基于置信度和熵两个指标来获取每一节点的可迁移性分数，包括：

8、采用双图卷积神经网络的结构，分别捕获所述图结构中网络节点嵌入的局部关系信息以及全局关系信息，以得到目标网络的节点表征和节点表征

9、基于图关系的注意力机制融合所述节点表征和所述节点表征得到融合节点表征zt；使用若干层的全连接层对所述融合节点表征zt进行增强，得到增强特征表示

10、将融合节点表征被输入到节点分类器f中，以得到在源网络类别上的标签预测结果

11、结合置信度和熵两个指标，计算目标网络中每一节点的可迁移性分数其中，表示该节点的标签预测结果，h表示熵指标运算，cs表示源网络的标签集。

12、进一步地，所述基于图关系的注意力机制融合所述节点表征和所述节点表征得到融合特征表征zt，包括：

13、获取所述图结构的节点属性矩阵xt；

14、根据所述节点表征和所述节点属性矩阵xt，计算局部关系的注意力分数

15、根据所述节点表征和所述节点属性矩阵xt，计算全局关系的注意力分数

16、分别对所述注意力分数和所述注意力分数进行归一化处理，以得到归一化注意力分数和归一化注意力分数

17、基于节点表征归一化注意力分数节点表征以及归一化注意力分数计算融合特征表征zt。

18、进一步地，训练所述节点分类模型，包括：

19、获取源网络中节点的预测标签并根据节点的真实标签和该预测标签计算训练所述节点分类模型时的节点分类损失其中，i′表示源网络中节点的序号；

20、计算源网络中每一标签r对应的原型并根据所述原型分别与增强特征表示增强特征表示之间的相似度分布向量和相似度分布向量计算训练所述节点分类模型时的域间原型对比损失其中，i表示目标网络中节点的序号；

21、根据融合节点表征和增强特征表示计算训练所述节点分类模型时的域内实例对比损失

22、获取目标网络中未知节点的预测标签并根据该预测标签计算训练所述节点分类模型时的熵正则项

23、综合节点分类损失域间原型对比损失域内实例对比损失以及熵正则项获取计算训练所述节点分类模型时的总损失。

24、进一步地，所述节点分类损失其中，ns表示源网络节点的数量，表示节点i′的真实标签。

25、进一步地，所述域间原型对比损失其中，bs表示源网络节点集，表示目标网络节点共有集，表示交叉熵损失函数，表示节点i′的真实标签，表示目标网络节点共有集中的节点通过knn算法赋予的伪标签。

26、进一步地，所述域内实例对比损失其中，bt表示最小批次中目标网络节点集，τ表示温度系数。

27、进一步地，所述熵正则项其中，代表目标网络的未知节点集合。

28、进一步地，所述基于所述可迁移性分数，将对应的节点划入共有集、不确定集或未知集，包括：

29、获取第一设定阈值θ和第二设定阈值α；

30、在s-θ>α的情况下，将对应的节点划入共有集；其中，s表示可迁移性分数；

31、在|s-θ|<α的情况下，将对应的节点划入不确定集；

32、在θ-s>α的情况下，将对应的节点划入未知集。

33、一种通用域自适应的节点分类装置，包括：

34、图构建模块，用于构建目标网络的图结构；

35、节点分类模块，用于将所述图结构输入节点分类模型，以使该节点分类模型基于置信度和熵两个指标来获取每一节点的可迁移性分数；基于所述可迁移性分数，将对应的节点划入共有集、不确定集或未知集。

36、本公开本文档来自技高网...

【技术保护点】

1.一种通用域自适应的节点分类方法，其特征在于，所述方法包括：

2.如权利要求1所述的方法，其特征在于，所述使该节点分类模型基于置信度和熵两个指标来获取每一节点的可迁移性分数，包括：

3.如权利要求2所述的方法，其特征在于，所述基于图关系的注意力机制融合所述节点表征和所述节点表征得到融合特征表征Zt，包括：

4.如权利要求2所述的方法，其特征在于，训练所述节点分类模型，包括：

5.如权利要求4所述的方法，其特征在于，所述节点分类损失其中，ns表示源网络节点的数量，表示节点i′的真实标签。

6.如权利要求4所述的方法，其特征在于，所述域间原型对比损失其中，Bs表示源网络节点集，表示目标网络节点共有集，表示交叉熵损失函数，表示节点i′的真实标签，表示目标网络节点共有集中的节点通过kNN算法赋予的伪标签。

7.如权利要求4所述的方法，其特征在于，所述域内实例对比损失其中，Bt表示最小批次中目标网络节点集，τ表示温度系数。

8.如权利要求4所述的方法，其特征在于，所述熵正则项其中，代表目标网络的未知节点集合。

9.如权利要求1至8任一项所述的方法，其特征在于，所述基于所述可迁移性分数，将对应的节点划入共有集、不确定集或未知集，包括：

10.一种通用域自适应的节点分类装置，其特征在于，所述装置包括：

...

【技术特征摘要】

1.一种通用域自适应的节点分类方法，其特征在于，所述方法包括：

2.如权利要求1所述的方法，其特征在于，所述使该节点分类模型基于置信度和熵两个指标来获取每一节点的可迁移性分数，包括：

3.如权利要求2所述的方法，其特征在于，所述基于图关系的注意力机制融合所述节点表征和所述节点表征得到融合特征表征zt，包括：

4.如权利要求2所述的方法，其特征在于，训练所述节点分类模型，包括：

5.如权利要求4所述的方法，其特征在于，所述节点分类损失其中，ns表示源网络节点的数量，表示节点i′的真实标签。

6.如权利要求4所述的方法，其特征在于，所述域间原型对...

【专利技术属性】
技术研发人员：古晓艳，陈榉烁，代飞飞，周江，李波，王伟平，
申请(专利权)人：中国科学院信息工程研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人