一种基于距离的数值分布异常检测方法及检测系统技术方案

技术编号:27591558 阅读:22 留言:0更新日期:2021-03-10 10:09
本发明专利技术提供一种基于距离的数值分布异常检测方法,属于计算机数据安全技术领域。对于数据组而言,剔重前计算得到的距离为整体数组的每个数据对象的分布情况,体现数据数值分布特点,剔重后计算得到的距离体现数据数值分布的广度。本发明专利技术通过分别计算剔重前、剔重后的数值距离,将数组中数值整体分布与数组中数值的集中程度结合,既可以检测低频异常值或者孤立值,同时也可以检测常见的高频行为,可以降低常见单维度异常检测算法的误报。低常见单维度异常检测算法的误报。低常见单维度异常检测算法的误报。

【技术实现步骤摘要】
一种基于距离的数值分布异常检测方法及检测系统


[0001]本专利技术涉及计算机数据安全
,具体来说是一种基于距离的数值分布异常检测方法及检测系统。

技术介绍

[0002]在对数据(例如,指标)进行监控的传统监控系统中,工程师或专家可以配置一些指标的异常阈值,当数据超出阈值时系统就会触发警报。但是,如果某个指标没有被监控覆盖到(不管是系统还是人),那么它表现异常后就可能没有人会知道,这可能造成不可预期的问题或故障。另外,许多问题不是靠人工设定阈值就能够解决的,特别是在对超大规模的性能指标进行监控时,很难依靠人工配置完成监控。随着应用需求及场景变化,数据异常检测方法也需要不断更新迭代。
[0003]现有技术中常见异常检测方法,例如统计方法、基于邻近度的离群点检测、基于密度的离群点检测、基于聚类的技术等,譬如一些基于统计方法的单维度检测算法主要用于极值检测,没有考虑数组中数值分布异常,对于一些低频异常数值识别能力较差。基于聚类的异常检测、基于密度的离群点检测等通常应用于多维度检测,对于单维异常数据检测能力往往效果不佳。
[0004]如申请号为CN202010465783.6公开的一种对等组中异常点的检测方法及装置,该方法包括:1)、获取对应于待检测用户的原始数据,将所述原始数据作为样本,其中,所述原始数据包括:用户的设备属性信息、风控数据、业务数据;2)、使用加权概率分布模型确定出聚类中心点个数,并基于所述中心点对样本进行若干次K

means聚类处理;3)根据各次聚类处理后的SSE值的最小值确定出目标k值;4)、将目标k值对应的聚类算法聚类后得到的簇作为对等组,针对每一个对等组,根据所述对等组中的样本点与对等组中其他样本点之间的比值获取每一个样本点的偏离度,根据所述偏离度获取异常点。应用本专利技术实施例,提高了安全性能。通过对等组中的样本点与其他样本点的偏离度来获取异常点,但是依然存在对单维度数据检测不准的问题。

技术实现思路

[0005]本专利技术所要解决的技术问题在于提供一种同时满足高频和低频或孤立值的数据异常检测方法。
[0006]本专利技术通过以下技术手段实现解决上述技术问题的:
[0007]一种基于距离的数值分布异常检测方法,包括以下步骤:
[0008]S01.数据提取,抽取指定时间周期内的标准化的业务数据表作为分析数据;
[0009]S02.数据统计,梳理分析数据的业务对象,根据业务对象对指定字段进行聚合分析,得到每个业务对象的多种操作行为的数量指标,整体指标值构成数组array;
[0010]S03.剔重数组距离计算,对步骤S02得到的数组array,进行数值剔重,得到新数组arrayl;
[0011]利用曼哈顿距离计算array1中每个数值与其他数值之间的距离S
i
,对所有数值距离S
i
进行求和,得到数组array1总距离和S;
[0012]S04.未剔重数组距离计算
[0013]对步骤S02得到的数组array,利用曼哈顿距离计算array中每个数值与其他数值之间的距离d
ij
;将计算得到d
ij
,按照不同数值对象进行求和,得到数值array每个唯一数值对象距离总和,即D
i
,此处第i个值与S02中第i个值一致;
[0014]对所有数值距离D
i
进行求和,得到数组array距离总和D;
[0015]S05.数值权重计算
[0016]基于步骤S03得到的数值距离,将每个数值距离S
i
除以总距离S,得到每个数值对象距离比R
i1

[0017]基于步骤S04得到的数值距离,将每个数值距离D
i
除以总距离D,得到每个数值对象距离比R
i2

[0018]对所有R
i1
进行均值计算得到R
i1
的权重w1,同理对所有R
i2
进行均值计算,得到R
i2
的权重w2;
[0019]S06.计算每个数值对象分值
[0020]根据步骤S03、S04、S05得到的距离值和权重,计算每个数值对象分值SCORE
i
=R
i1
×
w1+R
i2
×
w2;
[0021]S07.异常对象判断
[0022]对步骤S06得到所有数值对象分值进行检测,若数值对象分值大于阈值区间,则视为异常,数值对象对应的业务对象判断为异常。
[0023]对于数据组而言,剔重前计算得到的距离为整体数组的每个数据对象的分布情况,体现数据数值分布特点,剔重后计算得到的距离体现数据数值分布的广度。本专利技术通过分别计算剔重前、剔重后的数值距离,将数组中数值整体分布与数组中数值的集中程度结合,既可以检测低频异常值或者孤立值,同时也可以检测常见的高频行为,可以降低常见单维度异常检测算法的误报。
[0024]进一步的,所述步骤S02中的操作行为至少包括操作频次、用户数量、账户数量。
[0025]进一步的,所述步骤S07中,利用分位数准则对所有数值对象分值进行检测。
[0026]本专利技术还提供一种基于距离的数值分布异常检测系统,包括
[0027]数据提取模块,抽取指定时间周期内的标准化的业务数据表作为分析数据;
[0028]数据统计模块,梳理分析数据的业务对象,根据业务对象对指定字段进行聚合分析,得到每个业务对象的多种操作行为的数量指标,整体指标值构成数组array;
[0029]剔重数组距离计算模块,对数组array,进行数值剔重,得到新数组array1;
[0030]利用曼哈顿距离计算array1中每个数值与其他数值之间的距离S
i
,对所有数值距离S
i
进行求和,得到数组array1总距离和S;
[0031]未剔重数组距离计算模块,对数组array,利用曼哈顿距离计算array中每个数值与其他数值之间的距离d
ij
;各计算得到d
ij
,按照不同数值对象进行求和,得到数值array每个唯一数值对象距离总和,即D
i
,此处第i个值与S02中第i个值一致;
[0032]对所有数值距离D
i
进行求和,得到数组array距离总和D;
[0033]数值权重计算模块,基于剔重数组距离计算模块得到的数值距离,将每个数值距
离S
i
除以总距离S,得到每个数值对象距离比R
i1

[0034]基于未剔重数组距离计算模块得到的数值距离,将每个数值距离D
i
除以总距离D,得到每个数值对象距离比R
i2

[0035]对所有R
i1
进行均本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于距离的数值分布异常检测方法,其特征在于:包括以下步骤:S01.数据提取,抽取指定时间周期内的标准化的业务数据表作为分析数据;S02.数据统计,梳理分析数据的业务对象,根据业务对象对指定字段进行聚合分析,得到每个业务对象的多种操作行为的数量指标,整体指标值构成数组array;S03.剔重数组距离计算,对步骤S02得到的数组array,进行数值剔重,得到新数组array1;利用曼哈顿距离计算array1中每个数值与其他数值之间的距离S
i
,对所有数值距离S
i
进行求和,得到数组array1总距离和S;S04.未剔重数组距离计算对步骤S02得到的数组array,利用曼哈顿距离计算array中每个数值与其他数值之间的距离d
ij
;将计算得到d
ij
,按照不同数值对象进行求和,得到数值array每个唯一数值对象距离总和,即D
i
,此处第i个值与S02中第i个值一致;对所有数值距离D
i
进行求和,得到数组array距离总和D;S05.数值权重计算基于步骤S03得到的数值距离,将每个数值距离S
i
除以总距离S,得到每个数值对象距离比R
i1
;基于步骤S04得到的数值距离,将每个数值距离D
i
除以总距离D,得到每个数值对象距离比R
i2
;对所有R
i1
进行均值计算得到R
i1
的权重w1,同理对所有R
i2
进行均值计算,得到R
i2
的权重w2;S06.计算每个数值对象分值根据步骤S03、S04、S05得到的距离值和权重,计算每个数值对象分值SCORE
i
=R
i1
×
w1+R
i2
×
w2;S07.异常对象判断对步骤S06得到所有数值对象分值进行检测,若数值对象分值大于阈值区间,则视为异常,数值对象对应的业务对象判断为异常。2.根据权利要求1所述的一种基于距离的数值分布异常检测方法,其特征在于:所述步骤S02中的操作行为至少包括操作频次、用户数量、账户数量。3.根据权利要求1所述的一种基于距离的数值分布异常检测方法,其特征在于:所述步骤S07中,利用分位数准则对所有数值对象分值进行检测。4.一种基于距离的数值分布异常检测系统,其特征在于:包括数据提取模块,抽取指定时间周期内的标准化的业务数据表作为分析数据;数据统计模块,梳理分析数据的业务对象,根据业务对象对指定字段进行聚合分析,得...

【专利技术属性】
技术研发人员:殷钱安陶景龙梁淑云刘胜马影王启凡魏国富余贤喆周晓勇
申请(专利权)人:上海观安信息技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1