一种掩码图自编码器异常检测方法技术

技术编号:36467699 阅读:24 留言:0更新日期:2023-01-25 23:09
本发明专利技术提出一种掩码图自编码器异常检测方法,属于自监督图异常检测领域。针对现有自监督图自动编码器存在的问题,提出一种掩码图自编码器异常检测方法,提高了目前模型的有效性。本发明专利技术创新性地使用一个新的掩码图自编码器模型,将掩码自编码器思想迁移到了图上,通过一个简单的掩码图自编码器从重建目标,学习,损失函数和模型结构的角度解决了一般图自编码器面临的常见问题,同时设计了以缩放余弦误差为重建准则的掩码特征重建策略,这种缩放技术也可以看作是一种自适应的样本重称重,每个样本的权重随重建误差而调整。将所提的网络模型应用于图的异常检测领域,能达到提升准确率的目的。率的目的。率的目的。

【技术实现步骤摘要】
一种掩码图自编码器异常检测方法


[0001]本专利技术涉及一种掩码图自编码器异常检测方法,该方法在图异常检测领域中具有一定的应用价值。

技术介绍

[0002]自监督学习Self

Supervised Learning(SSL)旨在对于无标签数据,通过设计辅助任务(Proxy tasks)来挖掘数据自身的表征特性作为监督信息,来提升模型的特征提取能力。通常可分为生成式方法和基于对比学习的方法,在计算机视觉Computer Vision(CV)和自然语言处理Natural Language Processing(NLP)中得到广泛应用。尽管基于对比学习的SSL方法在过去两年中得到应用,但由于一些开创性的实践,如NLP中公认的Bidirectional Encoder Representation from Transformers(BERT)和Generative Pre

Training(GPT),以及CV中最近的掩码自编码器Masked Auto Encoders(MAE),生成式SSL方法的重要性不断增加。然而,在图学习的背景下,对比学习的SSL方法一直是主要的方法。它的成功很大程度上是建立在相对复杂的训练方式上的。例如,具有动量更新和指数移动平均的双编码器通常对于稳定Generic Cell Controller(GCC)和Bootstrapped Graph Latents(BGRL)的训练是必不可少的。此外,对于大部分的对比目标来说,负样本是非常必要的,通常需要艰难地从图形中进行采样或构建。最后,它对高质量数据增强的严重依赖证明是对比自监督学习的痛点,因为图形增强主要基于启发式,其有效性因图形而异。
[0003]自监督学习(SSL)中被广泛采用的方式是自动编码器。编码器将输入的样本映射到隐层向量,解码器将这个隐层向量映射回样本空间,期待网络的输入和输出可以保持一致,同时隐层向量的维度大大小于输入样本的维度,以此达到了降维的目的,利用学习到的隐层向量再进行聚类等任务时将更加的简单高效。自监督图形自动编码器Graph Auto

Encoders(GAE)可以有效地避免对比方法中的上述问题,因为其学习目标是直接重建输入图形数据。以Variational Graph Auto

Encoders(VGAE)为例,它的目标是预测缺失的边。Embedding propagation(EP)提出恢复顶点特征。Generative Pre

Training of Graph Neural Networks(GPT

GNN)提出了一种迭代执行节点和边缘重建的自回归框架。后来的GAE主要关注链接预测和图聚类的目标。

技术实现思路

[0004]为了解决自监督图自编码器在异常检测方面落后的问题,本专利技术公开了一种掩码图自编码器异常检测方法。
[0005]为此,本专利技术提供了如下技术方案:
[0006](一)技术方案
[0007]自监督掩码图自编码器的基本思想是:给定一个输入图,该图由节点和边组成,按照一定比例随机选择部分的节点和边特征,分别对其节点和边特征进行掩码。然后,将掩码后的节点和边特征拼接在一起放入一个编码器中进行权重共享,通过编码器生成节点和边
的特征表示,将表示进行特征融合,并取其均值和方差拉至同一分布后进行采样。在解码的过程中,对选定的节点和边的特征表示进行重新掩码。最后,重新掩码的图数据作为解码器的输入,并使用可缩放的余弦误差作为评价标准来重建原始的节点和边特征。其包括以下具体步骤:
[0008]1.数据输入阶段,给定一个输入图,该图由节点和边组成,按照一定比例随机选择部分的节点和边特征,分别对其节点和边特征进行掩码,将掩码后的节点和边特征拼接在一起放入一个编码器中进行权重共享。
[0009]步骤1_1给定输入图G=(V,A,X),其中V是节点的集合,A∈{0,1}
N
×
N
是邻接矩阵,X∈R
N
×
d
是节点特征矩阵,图中的边可表示为单位阵E。
[0010]步骤1_2按照一定比例随机选择部分的节点和边特征进行采样,每个节点和边都依赖其邻居来进行特征重构,均匀分布的随机抽样使得一个节点和边的邻居特征部分被掩码。
[0011]步骤1_3对节点和边的子集进行采样,并使用一个掩码标记来掩盖该节点和边子集的每个特征,即一个可学习的向量x
|M|
∈R
d
。因此,掩码节点和边的特征矩阵分别可以定义为:
[0012][0013]其中,x
i
为节点特征,x
|M|
为可学习的向量。E是单位矩阵。通过邻接矩阵A和掩码特征矩阵重构中被掩码的那部分节点特征。
[0014]2.模型训练阶段,将掩码后的节点和边特征拼接在一起放入一个编码器中进行权重共享,通过编码器生成节点和边的特征表示,将表示进行特征融合,并取其均值和方差拉至同一分布后进行采样。在解码的过程中,对选定的节点和边的特征表示进行重新掩码。最后,重新掩码的图数据作为解码器的输入,使用可缩放的余弦误差作为评价标准来重建原始的节点和边特征。
[0015]步骤2_1将掩码后的节点和边特征拼接在一起放入一个编码器中进行权重共享,通过编码器生成节点和边的特征表示。
[0016]步骤2_2将潜在节点表示H
n
和潜在边表示H
e
进行特征融合得到潜在表示H,并取其均值和方差拉至同一分布后进行采样。
[0017]步骤2_3使用单层GNN作为其解码器,解码器f
D
将编码器f
E
得到的潜在表示H映射回输入的节点和边的特征表示。
[0018]步骤2_4使用一种重掩码解码技术对潜在表示H进行解码,对编码器中的掩码节点和边再次使用另一个掩码标记代替掩码节点索引和边索引。通过使用重掩码和GNN做的解码器,被掩码的节点和边被迫从邻近的未被掩码的节点和边表示中重建输入特征。
[0019]步骤2_5采用余弦误差作为评价标准来度量重建效果。
[0020](二)有益效果
[0021]1.本专利技术提出了一个新的生成性自监督学习模型,将掩码自编码器思想迁移到了图上,通过一个简单的掩码图自编码器从重建目标,学习,损失函数和模型结构的角度解决
了一般图自编码器面临的常见问题,使其拥有较好的异常检测效果。
[0022]2.本专利技术设计了以缩放余弦误差为重建准则的掩码特征重建策略,这种缩放技术也可以看作是一种自适应的样本重称重,每个样本的权重随重建误差而调整。
附图说明:
[0023]图1为本专利技术所述的方法流程图。
[0024]图2为本专利技术所述的训练模型图。
具体实施方式:
[0025]为将本专利技术的技术方案更清楚和完整地阐述,下面结合本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种掩码图自编码器异常检测方法,其特征在于该方法包括以下步骤:步骤1:数据输入阶段,给定一个输入图,该图由节点和边组成,,按照一定比例随机选择部分的节点和边特征,分别对其节点和边特征进行掩码,将掩码后的节点和边特征拼接在一起放入一个编码器中进行权重共享,生成节点和边的特征表示。步骤2:模型训练阶段,将掩码后的节点和边特征拼接在一起放入一个编码器中进行权重共享,通过编码器生成节点和边的特征表示,将表示进行特征融合,并取其均值和方差拉至同一分布后进行采样。在解码的过程中,对选定的节点和边进行重新掩码。最后,解码器被应用于重新掩码的图,使用可缩放的余弦误差作为评价标准来重建原始的节点和边特征。2.根据权利要求1所述的一种掩码图自编码器异常检测方法,其特征在于,所述步骤1中的数据输入模块,具体步骤为:步骤1_1给定输入图G=(V,A,X),其中V是节点的集合,A∈{0,1}
N
×
N
是邻接矩阵,X∈R
N
×
d
是节点特征矩阵,图中的边可表示为单位阵E。步骤1_2按照一定比例随机选择部分的节点和边特征,每个节点和边都依赖其邻居来进行特征重构,给定f
E
作为图编码器,f
D
作为图解码器,表示由编码器生成的潜在表示。步骤1_3对节点和边子集进行采样,并使用一个掩码标记来掩盖该节点和边子集的每个特征,即一个可学习的向量x
|M|
∈R
d
。因此,掩码节点和边的特征矩阵分别可以定义为:其中,x
i
为节点特征,x
|M|
为可学习的向量,E为单位矩阵。3.根据权利要求1所述的一种掩码图自编码器异...

【专利技术属性】
技术研发人员:席亮李梦涵苗德华
申请(专利权)人:哈尔滨理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1