【技术实现步骤摘要】
一种数据异常特征的检测方法及装置
本专利技术涉及数据挖掘
,尤其涉及一种数据异常特征的检测方法及装置。
技术介绍
数据探索分析在建模过程中有着非常重要的作用,特别是对数据中异常特征的识别,对于模型的效果有着重要影响。数据中的异常特征是指在数据中一些特征变量的取值分布在不同的数据集合中具有明显差异。而对于数据异常特征的分析,传统的分析方法是采用绝对值划分标准,即人工设定数据特征值的分布区间范围,通过区间值来识别数据特征是否异常,然而,这种方式仅限于对数据特征较少的数据集,在实际应用中,大量的数据往往具有几千维甚至上万维特征,难以通过人工对每个数据特征进行指标设置,并且,人工设定还存在因受到人为经验的影响而导致识别准确率低的问题。因此,对于含有海量数据特征的数据集,进行异常数据特征的自动化检测成为亟待解决的问题。
技术实现思路
鉴于上述问题,本专利技术提出了一种数据异常特征的检测方法及装置,主要目的在于提高数据异常特征检测的自动化程度。为达到上述目的,本专利技术主要提供如下技术方案:一方 ...
【技术保护点】
1.一种数据异常特征的检测方法,其中,所述方法包括:/n获取用户通过配置界面输入的配置信息,所述配置信息中包括关于至少两个数据集的异常阈值;/n提取所述至少两个数据集中共有的特征变量;/n逐一分析所述特征变量在每个数据集中对应的变量值的分布状态;/n对比所述特征变量在不同数据集中分布状态的差异度;/n当所述差异度大于所述异常阈值时,将所述特征变量确定为异常特征;/n显示输出所确定的异常特征。/n
【技术特征摘要】
1.一种数据异常特征的检测方法,其中,所述方法包括:
获取用户通过配置界面输入的配置信息,所述配置信息中包括关于至少两个数据集的异常阈值;
提取所述至少两个数据集中共有的特征变量;
逐一分析所述特征变量在每个数据集中对应的变量值的分布状态;
对比所述特征变量在不同数据集中分布状态的差异度;
当所述差异度大于所述异常阈值时,将所述特征变量确定为异常特征;
显示输出所确定的异常特征。
2.根据权利要求1所述的方法,其中,对比所述特征变量在不同数据集中分布状态的差异度,包括:
在多个数据集中,对比所述特征变量在两两数据集中分布状态的差异度,选择最大的差异度为所述特征变量对应的差异度。
3.根据权利要求2所述的方法,其中,所述配置信息还包括对数据集中特征变量的属性值,所述属性值用于定义所述特征变量对应的变量值的分布规律,包括连续分布和离散分布;
所述对比所述特征变量在两两数据集中分布状态的差异度,包括:
利用与所述特征变量的属性值对应的预设的对比算法计算所述特征变量在第一数据集中的第一分布状态与在第二数据集中的第二分布状态的差异度。
4.根据权利要求3所述的方法,其中,所述属性值为离散分布时,确定所述特征变量为离散值变量,所述利用预设的对比算法计算所述特征变量在第一数据集中的第一分布状态与在第二数据集中的第二分布状态的差异度,包括:
确定所述离散值变量对应的取值种类以及每种取值在对应数据集中具有的数量;
根据所述数量确定每种取值在对应数据集中数量占比,得到第一数据集对应的第一占比以及第二数据集对应的第二占比;
计算所述第一占比与第二占比之差的绝对值与所述第一占比与第二占比之和的比值,将所述比值确定为差异度。
5.根据权利要求3所述的方法,其中,所述属性值为连续分布时,确定所述特征变量为连续值变量,所述利用预设的对比算法计算所述特征变量在第一数据集中的第一分布状态与在第二数据集中的第二分布状态的差异度,包括:
根据所述连续值变量在第一数据集中的第一取值以及第一数量,计算所述连续值变量取值的第一平均值以及第一标准差;
利用所述第一平均值以及第一标准差转换所述连续值变量在第二数据集中的第二取值,得...
【专利技术属性】
技术研发人员:郑佳尔,秦一焜,
申请(专利权)人:第四范式北京技术有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。