异常检测方法、装置、存储介质和计算机设备制造方法及图纸

技术编号:32974991 阅读:18 留言:0更新日期:2022-04-09 11:50
本申请提供了一种异常检测方法、装置、存储介质和计算机设备,包括:基于采集数据构建内容异常检测模型,基于k

【技术实现步骤摘要】
异常检测方法、装置、存储介质和计算机设备


[0001]本申请属于异常检测
,具体涉及一种异常检测方法、装置、存储介质和计算机设备。

技术介绍

[0002]异常检测技术常被应用于众多领域,如入侵检测、欺诈检测、故障检测、系统健康监测、传感器网络事件检测和生态系统干扰检测等。它通常用于在预处理中删除从数据集的异常数据,显著提升准确性。
[0003]现有的异常检测技术采用最近邻算法,最近邻算法主要基于正常的数据对象会比较集中,而异常往往与它的邻居远离的假设。在最近邻算法中,采用测试对象到其第k个最近邻的距离作为异常程度的分数。这种算法的基本机制是:数据的异常分数是其与其第k个邻居之间的距离。然后设定一个阈值,如果测试数据的异常分数大于这个阈值,那么这个数据就是异常的,反之,这个数据就是正常的。或者,将所有数据按异常分数排序,把最大的n个挑选出来作为异常。
[0004]由于基于最近邻的异常检测算法根本上是利用被检测点到第k个最近邻的距离。但是,基于最近邻的异常检测算法的偶然性很大,而且参数k的选择对异常检测的性能影响非常大。如果k很小,那么一部分以小团体形式存在的异常就不会被检测出来,反之,如果k很大,那么很多正常的点都会被误报。在实际应用中,异常出现的规模通常不是均匀的,也就是说异常点有时是很孤立的,有时是小团体,导致现有的基于最近邻的异常检测算法的误判效率较高。

技术实现思路

[0005]因此,本申请要解决的技术问题在于提供一种异常检测方法、装置、存储介质和计算机设备,能够降低异常检测的误判效率。
[0006]为了解决上述问题,本申请提供了一种异常检测方法,包括:基于采集数据构建内容异常检测模型,基于k

means聚类算法构建上下文异常检测模型;通过所述内容异常检测模型判断输入数据是否为内容异常数据;在所述输入数据为所述内容异常数据的情况下,获取所述输入数据的上下文信息;通过所述上下文异常检测模型基于所述上下文信息判断所述内容异常数据是否为异常数据。
[0007]可选的,所述基于采集数据构建内容异常检测模型,包括:通过单变量高斯预测函数基于采集数据构建内容异常检测模型的历史模型。
[0008]可选的,所述基于k

means聚类算法构建上下文异常检测模型,包括:通过所述k

means聚类算基于采集大数据构建所述上下文异常检测模型;所述上下文异常检测模型基于多元高斯函数判断所述内容异常数据是否为异常数据。
[0009]可选的,通过所述上下文异常检测模型基于所述上下文信息判断所述内容异常数据是否为异常数据,包括:确定所述内容异常数据的聚类个数,并确定所述内容异常数据的
聚类类别;计算所述内容异常数据的稠密度,基于所述稠密度通过k

means聚类算法将所述内容异常数据迭代至类别对应的聚类中;通过所述上下文异常检测模型基于所述稠密度判断所述内容异常数据是否为异常数据。
[0010]可选的,所述计算所述内容异常数据的稠密度,包括:计算所述内容异常数据中数据点p的k

距离;基于所述数据点p的k

距离计算所述数据点p的k

距离邻居聚类;计算所述数据点p与数据点o的可达距离;基于所述可达距离计算所述数据点p的稠密度。
[0011]可选的,所述通过所述上下文异常检测模型基于所述稠密度判断所述内容异常数据是否为异常数据,包括:计算所述数据点p的稠密度和所述数据点o的稠密度的平均值;比较所述平均值与预设值,在所述平均值小于所述预设值的情况下,确定所述数据点p为异常数据。
[0012]可选的,所述基于所述稠密度通过k

means聚类算法将所述内容异常数据迭代至类别对应的聚类中,包括:初始化,输入基因表达矩阵作为对象集,输入指定聚类类数,并在所述对象集中随机选取N个对象作为初始聚类中心,并设定迭代中止条件,聚类中心收敛误差容限;迭代处理,根据相似度准则将数据对象分配到最接近的聚类中心形成一类,并初始化隶属度矩阵;更新聚类中心,以每一类的所述数据对象的平均向量作为新的聚类中心,重新分配数据对象;反复执行迭代处理和更新聚类中心直至聚类中心不在改变。
[0013]与上述方法相匹配,本专利技术另一方面提供了一种异常检测装置,包括:采集模块,用于数据采集;建模模块,用于基于采集数据构建内容异常检测模型,基于k

means聚类算法构建上下文异常检测模型;所述内容异常检测模型用于判断输入数据是否为内容异常数据;所述上下文异常检测模型用于在所述输入数据为所述内容异常数据的情况下,获取所述输入数据的上下文信息,并通过所述上下文异常检测模型基于所述上下文信息判断所述内容异常数据是否为异常数据。
[0014]与上述方法相匹配,本专利技术另一方面提供了一种存储介质,其上存储有计算机程序,所述程序被处理器执行时实现上述的异常检测方法。
[0015]与上述方法相匹配,本专利技术另一方面提供了一种计算机设备,包括存储介质、处理器及存储在存储介质上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述的异常检测方法。
[0016]有益效果
[0017]本专利技术实施例中所提供的一种异常检测方法、装置、存储介质和计算机设备,首先利用内容异常检测的实时性,在线实时的将数据进行异常预判,然后将内容异常数据进行上下文异常检测,不仅有效的提高了系统运行的时间成本,同时也提高了数据异常检测的误判效率。
附图说明
[0018]图1为本专利技术的异常检测方法的一实施例的流程示意图;
[0019]图2为本专利技术的k=4时的p1与p2可达距离的示意图;
[0020]图3为本专利技术的异常检测装置的一实施例的结构示意图。
[0021]附图标记表示为:
[0022]101、采集模块;201、建模模块。
具体实施方式
[0023]以下结合附图对本专利技术的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本专利技术,并不用于限定本专利技术。
[0024]结合参见图1至图3所示,根据本申请的实施例,一种异常检测方法,包括:
[0025]S101:基于采集数据构建内容异常检测模型,基于k

means聚类算法构建上下文异常检测模型。
[0026]在该步骤中,通过单变量高斯预测函数基于采集数据构建内容异常检测模型的历史模型,并通过所述k

means聚类算基于采集大数据构建所述上下文异常检测模型。
[0027]通过构建内容异常检测模型,并通过内容异常检测模型中内容异常检测算法处理速度的实时性,将对每一个新输入到中央数据库中的采集器数据进行实时的内容异常检测,可实现快速的预判和分类,可用于处理大量高速的网络异常数据,实现实时在线内容异常检测。
[0028]通过构建基于k

means本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种异常检测方法,其特征在于,包括:基于采集数据构建内容异常检测模型,基于k

means聚类算法构建上下文异常检测模型;通过所述内容异常检测模型判断输入数据是否为内容异常数据;在所述输入数据为所述内容异常数据的情况下,获取所述输入数据的上下文信息;通过所述上下文异常检测模型基于所述上下文信息判断所述内容异常数据是否为异常数据。2.根据权利要求1所述的异常检测方法,其特征在于,所述基于采集数据构建内容异常检测模型,包括:通过单变量高斯预测函数基于采集数据构建内容异常检测模型的历史模型。3.根据权利要求1所述的异常检测方法,其特征在于,所述基于k

means聚类算法构建上下文异常检测模型,包括:通过所述k

means聚类算基于采集大数据构建所述上下文异常检测模型;所述上下文异常检测模型基于多元高斯函数判断所述内容异常数据是否为异常数据。4.根据权利要求1所述的异常检测方法,其特征在于,通过所述上下文异常检测模型基于所述上下文信息判断所述内容异常数据是否为异常数据,包括:确定所述内容异常数据的聚类个数,并确定所述内容异常数据的聚类类别;计算所述内容异常数据的稠密度,基于所述稠密度通过k

means聚类算法将所述内容异常数据迭代至类别对应的聚类中;通过所述上下文异常检测模型基于所述稠密度判断所述内容异常数据是否为异常数据。5.根据权利要求4所述的异常检测方法,其特征在于,所述计算所述内容异常数据的稠密度,包括:计算所述内容异常数据中数据点p的k

距离;基于所述数据点p的k

距离计算所述数据点p的k

距离邻居聚类;计算所述数据点p与数据点o的可达距离;基于所述可达距离计算...

【专利技术属性】
技术研发人员:唐海龙胡绍勇
申请(专利权)人:上海观安信息技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1