基于深度无监督自动编码器的图异常检测方法技术

技术编号:33857114 阅读:47 留言:0更新日期:2022-06-18 10:45
本发明专利技术提出一种基于深度无监督自动编码器的图异常检测方法,属于无监督异常检测领域。由于使用半监督图异常检测算法来检测离群值时,获取有标签的网络节点数据既困难又昂贵,而现有的无监督图异常检测算法也普遍存在两个局限性,首先是现实世界的复杂网络表现出的高度非线性的特征很难用矩阵分解捕捉到,其次矩阵分解技术在更大的网络中不能很好的使用。针对以上问题,为了能够更合理地提取网络表示中的特征信息,本发明专利技术提出了一种基于深度无监督自动编码器的图异常检测方法,在生成网络嵌入时,使用随机梯度下降和封闭形式来更新网络,以更快地优化网络参数。其次通过识别网络的结构和属性以及联合结构和属性的嵌入来学习,以最大限度地减少离群值的影响。最终将本发明专利技术所提的网络模型应用于无监督异常检测领域,能达到提升检测异常的准确率的效果。能达到提升检测异常的准确率的效果。能达到提升检测异常的准确率的效果。

【技术实现步骤摘要】
基于深度无监督自动编码器的图异常检测方法


[0001]本专利技术涉及一种基于深度无监督自动编码器的图异常检测方法,属于无监督异常检测领域。

技术介绍

[0002]现实世界中图结构数据无处不在,图作为一种复杂的结构化数据,相对于其他数据结构能够更好地存储和表达实体属性之间的联系,在社交网络分析、交通路网分析和知识图谱构建等领域均有广泛的应用。图异常检测是指在一个图或海量的图数据中寻找不正常的结构,包括节点结构异常,属性异常以及结构和属性联合异常三种类别,目前被广泛应用于网络攻击检测、社交网络中的突发事件检测、交通路网异常检测等应用场景。相较于传统的异常检测方法,由于图具有更强大的表达能力,基于图的异常检测方法不仅可以将复杂的数据更加直观的呈现,同时也能将数据中隐含的相关性融入到异常检测过程中。
[0003]网络中的节点具有社团结构,当节点的结构及其属性符合网络的社团结构时,大多数网络嵌入算法都能很好地工作。但是现实生活中的网络有社区离群节点,这些离群节点在其结构或属性上的相似性方面与它们所属社区的其他节点有很大的差异。如果不仔细处理这些离群节点,甚至会影响网络中其他节点的嵌入。因此,选择一个合适的节点嵌入方法在无监督异常检测任务中处理异常值的结构和属性是非常重要的。为了更合理地提取网络表示中的特征信息,本专利技术提出了一种基于深度无监督自动编码器的图异常检测方法,在生成网络嵌入时,使用随机梯度下降和封闭形式更新网络,以更快地优化网络参数。同时通过识别网络的结构和属性以及联合结构和属性的嵌入来学习,以最大限度地减少离群值的影响。
[0004]基于深度无监督自动编码器的图异常检测方法的应用列举及优势如下。
[0005]案例1:应用于网络攻击检测。通过对网络结构的实时监测,能够第一时间发现网络的异常情况从而及时对网络安全加强防护,避免黑客入侵和网络瘫痪。
[0006]案例2:应用于社交网络异常检测。通过对社交网络的检测,能够检测到社交网络中的突发事件,避免异常用户通过创建多个马甲进行虚假评论,盗用用户信息进行网络欺凌等情况的发生。
[0007]案例3:应用于交通路网异常检测。通过对交通路网的实时监控,能够提前预测不正常的交通路段情况,如异常轨迹预测和路网拥堵趋势预测等,从而避免不必要的交通事故发生。

技术实现思路

[0008]由于使用半监督图异常检测算法来检测离群值时,获取有标签的网络节点数据既困难又昂贵,而现有的无监督图异常检测算法也普遍存在两个局限性,首先是现实世界的复杂网络表现出的高度非线性的特征很难用矩阵分解捕捉到,其次矩阵分解技术在更大的网络中不能很好的使用。因此为了解决以上问题,本专利技术提出了一种基于深度无监督自动
编码器的图异常检测方法。
[0009](一)技术方案
[0010]基于深度无监督自动编码器的图异常检测方法的基本思想是:一方面使用两个并行的自动编码器分别对节点的结构和属性进行编码,以一种无监督的方式来最小化异常值对网络嵌入的影响,另一方面使用SGD算法训练模型,同时使用封闭形式更新网络,以更快地优化网络的参数。具体步骤如下:
[0011]1.模型预处理
[0012]现实生活中的网络是高度稀疏的,节点之间缺乏连接。邻接矩阵的行只能捕获观察到少量的节点之间的连接。为了解决这个问题,本专利技术使用重启随机游走方法来获得更丰富的上下文,从而保证节点间的高阶邻近性。
[0013]步骤1_1加载原始数据集中的图节点文件和图边文件。
[0014]步骤1_2将原始数据集按不同的比例划分成训练集和测试集。分别取数据集中的10%、20%、30%、40%和50%的数据作为训练集训练,剩余数据作为测试集进行测试使用。
[0015]步骤1_3计算转移矩阵。通过网络的邻接矩阵A得到转移矩阵D
‑1A,其中D是一个对角矩阵,具体公式如下:
[0016][0017]步骤1_4计算节点之间的高阶近似。首先定义表示概率矩阵,其中表示从节点i开始经过t步到达节点j的概率,t=0,1,

,T。T是截断后随机游动的最大长度,的具体公式如下:
[0018][0019]其中0≤r≤1,(1

r)是任意一步从起始节点随机游走的重新启动概率。最终取所有矩阵P1,

,P
T
的平均值来获取节点之间的高阶近似。
[0020]步骤1_5计算模型的最终输入。最终使用矩阵的行作为模型的最终输入,具体公式如下:
[0021][0022]2.模型训练和优化
[0023]模型的结构如图2所示,具体而言使用两个并行的自动编码器分别对节点的结构和属性进行编码。第一个自动编码器对节点的网络结构进行编码,使用Enc
s
表示,第二个自动编码器对节点的属性进行编码,使用Enc
a
表示。第一个自动编码器的输入是x
i
,即矩阵X的第i行,第二个自动编码器的输入是c
i
,即属性矩阵C的第i行。每个编码器和解码器都有L层,两个自动编码器均使用LeakyReLU非线性激活函数来训练网络。此外节点i关于结构和属性的隐藏层嵌入分别为和重构输出分别为和节点的结构异常分数为属性异常分数为结构属性联合异常分数为
[0024]步骤2_1计算邻近节点的结构损失由于结构自动编码器的输入捕获了节点的局部邻域,因此通过最小化重构损失可以保持网络中的高阶邻近性。为了进一步减少异常值对网络参数的学习产生不利影响,将结构损失的具体公式表述如下:
[0025][0026]步骤2_2计算邻近节点的结构同质性损失由于由边连接的节点往往具有相似的行为,它们在低维嵌入空间中的分布也应该是紧密的。相反的是,网络中的离群节点随机地与多个社区的节点连接,因此它们对同质性损失的贡献很小。因此结构同质性损失的具体公式如下:
[0027][0028]步骤2_3计算邻近节点的属性损失与结构损失的计算原理类似,属性损失具体公式如下:
[0029][0030]步骤2_4计算邻近节点的属性同质性损失与结构同质性损失的计算原理类似,属性同质性损失具体公式如下:
[0031][0032]步骤2_5计算结构和属性联合损失具体公式如下:
[0033][0034]步骤2_6通过最小化总损失来训练整个模型的网络,其中α为权重系数。具体公式如下:
[0035][0036]步骤2_7使用ADAM函数来优化学习自动编码器的参数,直至收敛,计算得到节点的最终嵌入。由于同质损失的计算代价昂贵,因此,对于每次迭代更新,从每个节点的邻域随机抽取2个节点并取它们的平均值来近似整个邻域的平均。对于训练,首先对自动编码器进行不带异常值的训练,然后交替更新各自封闭规则的超参数,之后使用ADAM函数更新自动编码器的参数,直到其收敛。最终将节点i的结构和属性的嵌入拼接起来,得到节点i的最终嵌入
[0037]步骤2_8根据训练集的准确率和F1分数本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于深度无监督自动编码器的图异常检测方法,其特征在于,该方法包括以下步骤:步骤1:模型预处理,包括对数据集的划分和对原始数据的预处理。步骤2:模型训练和优化,使用基于深度无监督自动编码器的图异常检测方法进行训练。步骤3:模型测试,使用训练好的模型对测试集的数据测试,计算测试数据的异常分数。2.根据权利要求1所述的基于深度无监督自动编码器的图异常检测方法,其特征在于,所述步骤1中的模型预处理模块的具体步骤为:步骤1_1加载原始数据集中的图节点文件和图边文件。步骤1_2将原始数据集按不同的比例划分成训练集和测试集。分别取数据集中的10%、20%、30%、40%和50%的数据作为训练集训练,剩余数据作为测试集进行测试使用。步骤1_3计算转移矩阵。通过网络的邻接矩阵A得到转移矩阵D
‑1A,其中D是对角矩阵。步骤1_4计算节点之间的高阶近似。表示概率矩阵,取所有概率矩阵P1,

,P
T
的平均值来获取节点之间的高阶近似。步骤1_5计算模型的最终输入。最终使用矩阵的行作为模型的最终输入。3.根据权利要求1所述的基于深度无监督自动编码器的图异常检测方法,其特征在于,所述步骤2中的模型训练和优化模块的具体步骤为:步骤2_1计算邻近节点的结构损失使用结构自动编码器的输入捕获节点的局部邻域,进而通过最小化重构损失保持网络中的高阶邻近性。步骤2_2计算邻近节点的结构同质性损失由于网络中的离群节点随机地与多个社区的节点连接,因此...

【专利技术属性】
技术研发人员:席亮梁晨晨梁钰佳
申请(专利权)人:哈尔滨理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1