一种无监督异配异质图的异常节点检测方法技术

技术编号:38328379 阅读:13 留言:0更新日期:2023-07-29 09:11
本发明专利技术提供了一种无监督异配异质图的异常节点检测方法。该方法包括:构建不同元路径下图的邻接矩阵和节点的属性向量表示;利用局部结构编码器引入节点的k阶邻居进行排序,学习节点与其k阶邻居之间的相关性,输出捕获了不同邻居特征和元路径语义关系的隐藏节点表示和重构的节点属性向量;利用节点特征编码器学习不同元路径下的节点的高阶结构特征向量,输出不同元路径下隐藏节点结构特征向量和重构的节点结构特征向量;计算出节点的属性误差、结构误差和节点异常分数。本发明专利技术可以在不依赖数据标注的情况下进行异常节点检测,不需要重新训练所有节点就可对新加入的节点进行检测,可以提高异配异质属性图和同配异质属性图中异常节点检测的准确性。图中异常节点检测的准确性。图中异常节点检测的准确性。

【技术实现步骤摘要】
一种无监督异配异质图的异常节点检测方法


[0001]本专利技术涉及数据挖掘异常检测
,尤其涉及一种无监督异配异质图的异常节点检测方法。

技术介绍

[0002]无监督节点级别图异常检测是一个重要的数据挖掘问题,在图(网络)结构中挖掘异常(离群值)的节点。例如,在社交网络中检测异常的人群或在金融借贷网络中检测异常的交易。
[0003]图异常节点检测旨在识别图中异常节点,防止恶意行为的出现。随着信息技术的发展,网络中的异常与欺诈行为影响了社会的正常发展,如谣言传播、恶意评论、电信欺诈、网络入侵等,如何能够准确地检测到这些异常节点与异常行为,避免造成更多的危害变得尤为重要。而图异常检测在欺诈检测、入侵检测、水军账号识别等领域发挥着重要作用。
[0004]准确标注大量异常节点需要耗费大量人力和时间,甚至有时因为隐私问题无法获取标签数据。为了缓解标签稀缺的问题,对比自监督学习和图自动编码器是无监督学习的两个常用框架。对比自监督学习在很大程度上依赖于高质量的数据扩充。同时,大多数对比损失函数都需要生成负样本。图自动编码器(GAE)则避免了上述对比学习方法中的问题。图自动编码器由编码器和解码器组成。编码器将输入图映射到低维嵌入空间,解码器将嵌入表示映射回原始图。
[0005]目前,现有技术中的图自动编码器都是基于同质图,没有考虑丰富的语义信息。考虑异质性的无监督图方法又大多基于同配性假设。同配性假设是多数图的一个重要的特征,即链接的节点倾向于有相似的特征。然而,在现实异常检测场景中节点很可能会为伪装自己的行为,使得构造的图并不满足同配性假设,反而具有较高的异配性,即距离近的节点通常来自不同的类别以及具有不同的特征。
[0006]因此,设计一种无监督异配异质图表示学习方法进行异常节点检测,具有广阔的应用场景和重要的意义。

技术实现思路

[0007]本专利技术的实施例提供了一种无监督异配异质图的异常节点检测方法,以实现有效地检测异常节点。
[0008]为了实现上述目的,本专利技术采取了如下技术方案。
[0009]一种无监督异配异质图的异常节点检测方法,包括:
[0010]根据异常节点场景输入节点属性特征和节点之间的链接关系,构建不同元路径下的图的邻接矩阵,将节点的属性特征映射到同一空间,输出不同元路径下的图的邻接矩阵和节点的属性向量表示;
[0011]构建局部结构编码器,将所述不同元路径下的图的邻接矩阵和节点的属性向量表示输入到所述局部结构编码器,引入节点的k阶邻居进行排序,学习节点与其k阶邻居之间
的相关性,输出捕获了不同邻居特征和元路径语义关系的隐藏节点表示和重构的节点属性向量;
[0012]利用节点特征编码器学习不同元路径下的节点结构特征向量,通过多层感知器对节点特征进行编码和解码,输出不同元路径下节点的隐藏结构特征向量和重构的节点结构特征向量;
[0013]根据所述节点的属性向量和重构的节点属性向量得到节点的属性误差,根据所述原始邻接矩阵和局部结构编码器中隐藏节点表示重构的邻接矩阵以及节点结构特征向量和重构的节点结构特征向量得到节点的结构误差,综合所述节点的属性误差和结构误差计算出节点的异常分数。
[0014]优选地,所述的方法还包括:根据所述隐藏节点表示、隐藏结构特征向量和重构的节点属性向量、结构特征向量,计算网络的总体损失函数,优化所述局部结构编码器和节点特征编码器。
[0015]优选地,所述的构建局部结构编码器,将所述不同元路径下的图的邻接矩阵和节点的属性向量表示输入到所述局部结构编码器,引入节点的k阶邻居进行排序,学习节点与其k阶邻居之间的相关性,输出捕获了不同邻居特征和元路径语义关系的隐藏节点表示和重构的节点属性向量,包括:
[0016]构建局部结构自动编码器,该局部结构自动编码器包括多个隐式聚合的多个编码器层,在每个编码器层中,节点的k阶邻居之间的节点属性通过自注意力聚合,多个编码器层聚合节点的多阶邻居的属性,将节点属性特征经过变换矩阵W映射到潜在特征空间,再引入k阶邻居的节点自注意力,在第l
th
层的节点编码器中,基于相同元路径m的节点对(u,v)的重要性公式如下:
[0017][0018]和W
m,l
是l
th
节点编码器层的可训练参数向量,σ是一个激活函数,表示节点u对节点v的重要性,与节点v对节点u的重要性不同,分别为节点u和节点vl
‑1th
节点编码器层的向量表示;
[0019]应用softmax函数对进行归一化,得到重要性的计算公式如下:
[0020][0021]其中表示对元路径m中节点u的k阶邻居,节点属性是初始节点表示,
[0022]元路径m中节点u在第l
th
编码器层中的表示的计算公式如下:
[0023][0024]其中β控制节点属性的贡献值,表示元路径m中节点i的k阶邻居进行重要性排序后前q个邻居;
[0025]对于节点u,元路径m
i
和m
j
之间节点嵌入的相关性使用以下等式计算:
[0026][0027]其中W
q
和W
t
是语义编码层学习的参数,σ是一个激活函数;
[0028]通过归一化得到语义注意系数的计算公式如下:
[0029][0030]根据相应的注意力系数聚合不同元路径中节点u的向量表示捕获了不同邻居特征和元路径语义关系的隐藏节点表示向量的计算公式如下:
[0031][0032]M是元路径的个数,i,j,c是不同元路径类型;
[0033]利用层次注意力解码器根据节点注意力系数聚合其邻居的表示来重建节点的表示,语义解码器层通过反转语义自注意编码器的过程聚合不同的基于元路径的节点嵌入以重建原始节点属性,使用先前节点注意力值的倒数重建节点属性特征,第l
th
层解码器中的节点表示计算公式如下:
[0034][0035]重构的节点属性向量由以下公式计算:
[0036][0037]其中是通过反转第一个编码器层解码的节点表示。
[0038]优选地,所述的利用节点特征编码器学习不同元路径下的节点的高阶结构特征向量,通过多层感知器对节点特征进行编码和解码,输出不同元路径下节点的隐藏结构特征向量和重构的节点结构特征向量,包括:
[0039]构建节点特征编码器,节点的14维motif特征,节点的平均度数,最小度数,最大度数,节点子图的分位数组成节点的结构特征,对于异配图数据集,节点属性也是节点特征的一部分,使用两个非线性特征变换层将节点特征映射到潜在特征嵌入z,公式如下:
[0040][0041][0042]其中W1,b1,W2,b2是两层学到的权重和偏差,S
m,u
是元路径m中节点u的特征表示,包括结构特征和属性特征,z
m,u
是元路径m中节点u的隐藏结构特征向量;
[004本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种无监督异配异质图的异常节点检测方法,其特征在于,包括:根据异常节点场景输入节点属性特征和节点之间的链接关系,构建不同元路径下的图的邻接矩阵,将节点的属性特征映射到同一空间,输出不同元路径下的图的邻接矩阵和节点的属性向量表示;构建局部结构编码器,将所述不同元路径下的图的邻接矩阵和节点的属性向量表示输入到所述局部结构编码器,引入节点的k阶邻居进行排序,学习节点与其k阶邻居之间的相关性,输出捕获了不同邻居特征和元路径语义关系的隐藏节点表示和重构的节点属性向量;利用节点特征编码器学习不同元路径下的节点结构特征向量,通过多层感知器对节点特征进行编码和解码,输出不同元路径下节点的隐藏结构特征向量和重构的节点结构特征向量;根据所述节点的属性向量和重构的节点属性向量得到节点的属性误差,根据所述原始邻接矩阵和局部结构编码器中隐藏节点表示重构的邻接矩阵以及节点结构特征向量和重构的节点结构特征向量得到节点的结构误差,综合所述节点的属性误差和结构误差计算出节点的异常分数。2.根据权利要求1所述的方法,其特征在于,所述的方法还包括:根据所述隐藏节点表示、隐藏结构特征向量和重构的节点属性向量、结构特征向量,计算网络的总体损失函数,优化所述局部结构编码器和节点特征编码器。3.根据权利要求1或者2所述的方法,其特征在于,所述的构建局部结构编码器,将所述不同元路径下的图的邻接矩阵和节点的属性向量表示输入到所述局部结构编码器,引入节点的k阶邻居进行排序,学习节点与其k阶邻居之间的相关性,输出捕获了不同邻居特征和元路径语义关系的隐藏节点表示和重构的节点属性向量,包括:构建局部结构自动编码器,该局部结构自动编码器包括多个隐式聚合的多个编码器层,在每个编码器层中,节点的k阶邻居之间的节点属性通过自注意力聚合,多个编码器层聚合节点的多阶邻居的属性,将节点属性特征经过变换矩阵W映射到潜在特征空间,再引入k阶邻居的节点自注意力,在第l
th
层的节点编码器中,基于相同元路径m的节点对(u,v)的重要性公式如下:公式如下:和W
m,l
是l
th
节点编码器层的可训练参数向量,σ是一个激活函数,表示节点u对节点v的重要性,与节点v对节点u的重要性不同,分别为节点u和节点vl
‑1th
节点编码器层的向量表示;应用softmax函数对进行归一化,得到重要性的计算公式如下:其中表示对元路径m中节点u的k阶邻居,节点属性是初始节点表示,元
路径m中节点u在第l
th
编码器层中的表示的计算公式如下:其中β控制节点属性的贡献值,表示元路径m中节点u的k阶邻居进行重要性排序后前q个邻居;对于节点u,元路径m
i
和m
j
之间节点嵌入的相关性使用以下等式计算:其中W
q
和W
t
是语义编码层学习的参数,σ是一个激活函数;通过归一化得到语义注意系数的计算公式如下:根据相应的注意力系数聚合不同元路径中节点u的向量表示捕获了不同邻居特征和元路径语义关系的隐藏节点表示向量的计算公式如下:M是元路径的个数,i,j,c是不同元路径类型;利...

【专利技术属性】
技术研发人员:王伟卫相宇马小博管晓宏
申请(专利权)人:西安交通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1