无监督数据异常检测方法、装置及存储介质制造方法及图纸

技术编号:26890719 阅读:21 留言:0更新日期:2020-12-29 16:07
本申请公开了一种无监督数据异常检测方法、装置及存储介质,及数据处理技术。其中,该方法包括:将多个待检测数据分别表达为多维特征;针对每一维特征,根据每个待检测数据的该维特征,提取该维特征的数据分布,并确定该维特征数据的数据分布的特异性参数;在多维特征中选取特异性参数最大的预定数量个特征作为目标特征;利用目标特征对待检测数据进行数据异常的检测,得到目标异常数据。本申请根据特异性参数准确地选择出数据异常的敏感度高的目标特征,在节省大量人力和时间资源的同时,具有良好的泛化能力和稳定性,且利用目标特征进行对数据异常的敏感度,在大大改进数据异常检测效果的同时,大幅节省了计算资源。

【技术实现步骤摘要】
无监督数据异常检测方法、装置及存储介质
本申请涉及数据处理技术,特别是涉及一种无监督数据异常检测方法、装置及存储介质。
技术介绍
数据异常检测技术广泛应用于金融、工业、网络等领域,例如使用数据异常检测技术进行数据挖掘、金融反欺诈等,用于从海量数据中检测出数值异常或代表了异常行为的数据。现有技术通常采用无监督机器学习技术进行数据异常检测,然而,使用无监督机器学习技术进行数据异常检测的性能严重依赖于无监督机器学习技术中使用的特征对数据异常的敏感度。传统方法要么基于专家经验或有监督的机器学习技术进行特征选择,这种方式依赖于足够的先验知识,需要耗费大量的人力和时间,且很难具备良好的泛化能力和稳定性。要么通过引入过量的特征来提高数据异常检测的效果,但这种方法既无法保证有效信息的保留,又势必导致特征冗余,对数据异常检测效果的改进不显著且耗费大量无意义的计算资源。
技术实现思路
有鉴于此,本申请的主要目的在于提供一种无监督数据异常检测方法,该方法无需依赖人力,具有良好的泛化能力和稳定性,且可以准确的进行特征选择,在大大改进数据异常检测效果本文档来自技高网...

【技术保护点】
1.一种无监督数据异常检测方法,其特征在于,包括:/n将多个待检测数据分别表达为多维特征;/n针对每一维特征,根据每个待检测数据的该维特征,提取该维特征的数据分布,并确定该维特征数据的数据分布的特异性参数;所述特异性参数用于表征每个待检测数据的该维特征与其余待检测数据的该维特征之间的差异;/n在所述多维特征中选取所述特异性参数最大的预定数量个特征作为目标特征;/n利用所述目标特征对所述待检测数据进行数据异常的检测,得到目标异常数据。/n

【技术特征摘要】
1.一种无监督数据异常检测方法,其特征在于,包括:
将多个待检测数据分别表达为多维特征;
针对每一维特征,根据每个待检测数据的该维特征,提取该维特征的数据分布,并确定该维特征数据的数据分布的特异性参数;所述特异性参数用于表征每个待检测数据的该维特征与其余待检测数据的该维特征之间的差异;
在所述多维特征中选取所述特异性参数最大的预定数量个特征作为目标特征;
利用所述目标特征对所述待检测数据进行数据异常的检测,得到目标异常数据。


2.根据权利要求1所述的方法,其特征在于,所述特异性参数为度量数据分布的非高斯性的参数;其中,所述特异性参数包括:峰态系数或偏态系数。


3.根据权利要求2所述的方法,其特征在于,在所述特异性参数为峰态系数的情况下,所述确定该维特征数据的数据分布的特异性参数的步骤包括:
根据每个待检测数据的该维特征的数值,确定该维特征的平均数值;
根据所述平均数值、每个待检测数据的该维特征的数值和待检测数据的个数,确定所述峰态系数。


4.一种无监督数据异常检测装置,其特征在于,包括:
特征表达模块,用于将多个待检测数据分别表达为多维特征;
特异性计算模块,用于针对每一维特征,根据每个待检测数据的该...

【专利技术属性】
技术研发人员:奚久洲曲洪涛张雯祝浩
申请(专利权)人:京东数字科技控股有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1