【技术实现步骤摘要】
一种基于距离的数值分布异常检测方法及检测系统
[0001]本专利技术涉及计算机数据安全
,具体来说是一种基于距离的数值分布异常检测方法及检测系统。
技术介绍
[0002]在对数据(例如,指标)进行监控的传统监控系统中,工程师或专家可以配置一些指标的异常阈值,当数据超出阈值时系统就会触发警报。但是,如果某个指标没有被监控覆盖到(不管是系统还是人),那么它表现异常后就可能没有人会知道,这可能造成不可预期的问题或故障。另外,许多问题不是靠人工设定阈值就能够解决的,特别是在对超大规模的性能指标进行监控时,很难依靠人工配置完成监控。随着应用需求及场景变化,数据异常检测方法也需要不断更新迭代。
[0003]现有技术中常见异常检测方法,例如统计方法、基于邻近度的离群点检测、基于密度的离群点检测、基于聚类的技术等,譬如一些基于统计方法的单维度检测算法主要用于极值检测,没有考虑数组中数值分布异常,对于一些低频异常数值识别能力较差。基于聚类的异常检测、基于密度的离群点检测等通常应用于多维度检测,对于单维异常数据检测能力往往效果不佳。
[0004]如申请号为CN202010465783.6公开的一种对等组中异常点的检测方法及装置,该方法包括:1)、获取对应于待检测用户的原始数据,将所述原始数据作为样本,其中,所述原始数据包括:用户的设备属性信息、风控数据、业务数据;2)、使用加权概率分布模型确定出聚类中心点个数,并基于所述中心点对样本进行若干次K
‑
means聚类处理;3)根据各次聚类处理后的SSE ...
【技术保护点】
【技术特征摘要】
1.一种基于距离的数值分布异常检测方法,其特征在于:包括以下步骤:S01.数据提取,抽取指定时间周期内的标准化的业务数据表作为分析数据;S02.数据统计,梳理分析数据的业务对象,根据业务对象对指定字段进行聚合分析,得到每个业务对象的多种操作行为的数量指标,整体指标值构成数组array;S03.剔重数组距离计算,对步骤S02得到的数组array,进行数值剔重,得到新数组array1;利用曼哈顿距离计算array1中每个数值与其他数值之间的距离S
i
,对所有数值距离S
i
进行求和,得到数组array1总距离和S;S04.未剔重数组距离计算对步骤S02得到的数组array,利用曼哈顿距离计算array中每个数值与其他数值之间的距离d
ij
;将计算得到d
ij
,按照不同数值对象进行求和,得到数值array每个唯一数值对象距离总和,即D
i
,此处第i个值与S02中第i个值一致;对所有数值距离D
i
进行求和,得到数组array距离总和D;S05.数值权重计算基于步骤S03得到的数值距离,将每个数值距离S
i
除以总距离S,得到每个数值对象距离比R
i1
;基于步骤S04得到的数值距离,将每个数值距离D
i
除以总距离D,得到每个数值对象距离比R
i2
;对所有R
i1
进行均值计算得到R
i1
的权重w1,同理对所有R
i2
进行均值计算,得到R
i2
的权重w2;S06.计算每个数值对象分值根据步骤S03、S04、S05得到的距离值和权重,计算每个数值对象分值SCORE
i
=R
i1
×
w1+R
i2
×
w2;S07.异常对象判断对步骤S06得到所有数值对象分值进行检测,若数值对象分值大于阈值区间,则视为异常,数值对象对应的业务对象判断为异常。2.根据权利要求1所述的一种基于距离的数值分布异常检测方法,其特征在于:所述步骤S02中的操作行为至少包括操作频次、用户数量、账户数量。3.根据权利要求1所述的一种基于距离的数值分布异常检测方法,其特征在于:所述步骤S07中,利用分位数准则对所有数值对象分值进行检测。4.一种基于距离的数值分布异常检测系统,其特征在于:包括数据提取模块,抽取指定时间周期内的标准化的业务数据表作为分析数据;数据统计模块,梳理分析数据的业务对象,根据业务对象对指定字段进行聚合分析,得...
【专利技术属性】
技术研发人员:殷钱安,陶景龙,梁淑云,刘胜,马影,王启凡,魏国富,余贤喆,周晓勇,
申请(专利权)人:上海观安信息技术股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。