一种数据异常特征的检测方法及装置制造方法及图纸

技术编号:24010604 阅读:12 留言:0更新日期:2020-05-02 01:36
本发明专利技术公开了一种数据异常特征的检测方法及装置,涉及数据挖掘技术领域,主要目的在于提高数据异常特征检测的自动化程度。本发明专利技术主要的技术方案为:获取用户通过配置界面输入的配置信息,所述配置信息中包括关于至少两个数据集的异常阈值;提取所述至少两个数据集中共有的特征变量;逐一分析所述特征变量在每个数据集中对应的变量值的分布状态;对比所述特征变量在不同数据集中分布状态的差异度;当所述差异度大于所述异常阈值时,将所述特征变量确定为异常特征;显示输出所确定的异常特征。

A detection method and device of data abnormal features

【技术实现步骤摘要】
一种数据异常特征的检测方法及装置
本专利技术涉及数据挖掘
,尤其涉及一种数据异常特征的检测方法及装置。
技术介绍
数据探索分析在建模过程中有着非常重要的作用,特别是对数据中异常特征的识别,对于模型的效果有着重要影响。数据中的异常特征是指在数据中一些特征变量的取值分布在不同的数据集合中具有明显差异。而对于数据异常特征的分析,传统的分析方法是采用绝对值划分标准,即人工设定数据特征值的分布区间范围,通过区间值来识别数据特征是否异常,然而,这种方式仅限于对数据特征较少的数据集,在实际应用中,大量的数据往往具有几千维甚至上万维特征,难以通过人工对每个数据特征进行指标设置,并且,人工设定还存在因受到人为经验的影响而导致识别准确率低的问题。因此,对于含有海量数据特征的数据集,进行异常数据特征的自动化检测成为亟待解决的问题。
技术实现思路
鉴于上述问题,本专利技术提出了一种数据异常特征的检测方法及装置,主要目的在于提高数据异常特征检测的自动化程度。为达到上述目的,本专利技术主要提供如下技术方案:一方面,本专利技术提供一种数据异常特征的检测方法,具体包括:获取用户通过配置界面输入的配置信息,所述配置信息中包括关于至少两个数据集的异常阈值;提取所述至少两个数据集中共有的特征变量;逐一分析所述特征变量在每个数据集中对应的变量值的分布状态;对比所述特征变量在不同数据集中分布状态的差异度;当所述差异度大于所述异常阈值时,将所述特征变量确定为异常特征;显示输出所确定的异常特征。可选地,对比所述特征变量在不同数据集中分布状态的差异度,包括:在多个数据集中,对比所述特征变量在两两数据集中分布状态的差异度,选择最大的差异度为所述特征变量对应的差异度。可选地,所述配置信息还包括对数据集中特征变量的属性值,所述属性值用于定义所述特征变量对应的变量值的分布规律,包括连续分布和离散分布;所述对比所述特征变量在两两数据集中分布状态的差异度,包括:利用与所述特征变量的属性值对应的预设的对比算法计算所述特征变量在第一数据集中的第一分布状态与在第二数据集中的第二分布状态的差异度。可选地,所述属性值为离散分布时,确定所述特征变量为离散值变量,所述利用预设的对比算法计算所述特征变量在第一数据集中的第一分布状态与在第二数据集中的第二分布状态的差异度,包括:确定所述离散值变量对应的取值种类以及每种取值在对应数据集中具有的数量;根据所述数量确定每种取值在对应数据集中数量占比,得到第一数据集对应的第一占比以及第二数据集对应的第二占比;计算所述第一占比与第二占比之差的绝对值与所述第一占比与第二占比之和的比值,将所述比值确定为差异度。可选地,所述属性值为连续分布时,确定所述特征变量为连续值变量,所述利用预设的对比算法计算所述特征变量在第一数据集中的第一分布状态与在第二数据集中的第二分布状态的差异度,包括:根据所述连续值变量在第一数据集中的第一取值以及第一数量,计算所述连续值变量取值的第一平均值以及第一标准差;利用所述第一平均值以及第一标准差转换所述连续值变量在第二数据集中的第二取值,得到转换值,所述转换值为第二取值与第一平均值之差除以第一标准差得到的比值;根据所述连续值变量在第二数据集中的所述转换值以及第二数量,计算所述连续值变量取值的第二平均值以及第二标准差,将所述第二平均值以及第二标准差分别确定为差异度。可选地,所述异常阈值包括平均值阈值与标准差阈值;所述将所述特征变量确定为异常特征,包括:判断所述第二平均值是否大于所述平均值阈值;若大于平均值阈值,则确定所述特征变量为异常特征,若小于,则判断所述第二标准差是否大于所述标准差阈值;若大于标准差阈值,则确定所述特征变量为异常特征,若小于,则确定所述特征变量正常。可选地,所述属性值为连续分布时,确定所述特征变量为连续值变量,所述利用预设的对比算法计算所述特征变量在第一数据集中的第一分布状态与在第二数据集中的第二分布状态的差异度,还包括:根据所述连续值变量在第一数据集中的第一取值以及预设分位数,确定分为数对应的取值,得到多个取值区间;计算在所述第二数据集中取值落入各个取值区间的数量占总数量的占比值;利用各个取值区间的占比值确定所述连续值变量的差异度。可选地,利用各个取值区间的占比值确定所述连续值变量的差异度,包括:根据所述取值区间的个数对所述各个取值区间的占比值进行归一化处理,得到各个取值区间对应的对比值;将所述各个取值区间对应的对比值的平均值确定为所述差异度。可选地,所述属性值为连续分布时,确定所述特征变量为连续值变量,所述利用预设的对比算法计算所述特征变量在第一数据集中的第一分布状态与在第二数据集中的第二分布状态的差异度,还包括:根据第一数据集中连续值变量取值的最大值与最小值,确定取值区间;根据预设区间数将所述取值区间进行等分,并对每个取值区间标记区间号;将第一数据集与第二数据集中连续值变量的取值按照所对应的取值区间转化为区间号;根据所述区间号的数量确定每一个取值区间的数量占比,分别得到第一数据集对应的第一占比以及第二数据集对应的第二占比;计算所述第一占比与第二占比之差的绝对值与所述第一占比与第二占比之和的比值,将所述比值确定为差异度。可选地,所述配置信息中还包括所述至少两个数据集的存储路径信息;该方法在所述提取所述至少两个数据集中共有的特征变量的步骤之前,还包括根据所述至少两个数据集的存储路径信息获取所述至少两个数据集的步骤。可选地,所述方法还包括:创建异常特征集合;若从所述数据集中检测出异常特征,则将所述异常特征加入所述特征集合;所述显示输出所确定的异常特征包括:在完成对所述数据集中含有的特征变量检测后,根据所述异常特征集合中含有的异常特征以及对应的差异度生成异常特征报告,显示输出所述异常特征报告。可选地,获取用户通过配置界面输入的配置信息包括:由服务器从终端设备接收用户通过终端设备侧的配置界面输入的配置信息;由服务器执行所述提取所述至少两个数据集中共有的特征变量,逐一分析所述特征变量在每个数据集中对应的变量值的分布状态,对比所述特征变量在不同数据集中分布状态的差异度,以及当所述差异度大于所述异常阈值时,将所述特征变量确定为异常特征的步骤。所述显示输出所确定的异常特征包括:由服务器向终端设备发送所确定的异常特征,并由终端设备显示输出所确定的异常特征。另一方面,本专利技术提供一种数据异常特征的检测装置,具体包括:获取单元,用于获取用户通过配置界面输入的配置信息,所述配置信息中包括关于至少两个数据集的异常阈值;提取单元,用于提取所述至少两个数据集中共有的特征变量;分析单元,用于逐一分析所述特征变量在每个数据集中对应的变量值的分布状态;对比单本文档来自技高网...

【技术保护点】
1.一种数据异常特征的检测方法,其中,所述方法包括:/n获取用户通过配置界面输入的配置信息,所述配置信息中包括关于至少两个数据集的异常阈值;/n提取所述至少两个数据集中共有的特征变量;/n逐一分析所述特征变量在每个数据集中对应的变量值的分布状态;/n对比所述特征变量在不同数据集中分布状态的差异度;/n当所述差异度大于所述异常阈值时,将所述特征变量确定为异常特征;/n显示输出所确定的异常特征。/n

【技术特征摘要】
1.一种数据异常特征的检测方法,其中,所述方法包括:
获取用户通过配置界面输入的配置信息,所述配置信息中包括关于至少两个数据集的异常阈值;
提取所述至少两个数据集中共有的特征变量;
逐一分析所述特征变量在每个数据集中对应的变量值的分布状态;
对比所述特征变量在不同数据集中分布状态的差异度;
当所述差异度大于所述异常阈值时,将所述特征变量确定为异常特征;
显示输出所确定的异常特征。


2.根据权利要求1所述的方法,其中,对比所述特征变量在不同数据集中分布状态的差异度,包括:
在多个数据集中,对比所述特征变量在两两数据集中分布状态的差异度,选择最大的差异度为所述特征变量对应的差异度。


3.根据权利要求2所述的方法,其中,所述配置信息还包括对数据集中特征变量的属性值,所述属性值用于定义所述特征变量对应的变量值的分布规律,包括连续分布和离散分布;
所述对比所述特征变量在两两数据集中分布状态的差异度,包括:
利用与所述特征变量的属性值对应的预设的对比算法计算所述特征变量在第一数据集中的第一分布状态与在第二数据集中的第二分布状态的差异度。


4.根据权利要求3所述的方法,其中,所述属性值为离散分布时,确定所述特征变量为离散值变量,所述利用预设的对比算法计算所述特征变量在第一数据集中的第一分布状态与在第二数据集中的第二分布状态的差异度,包括:
确定所述离散值变量对应的取值种类以及每种取值在对应数据集中具有的数量;
根据所述数量确定每种取值在对应数据集中数量占比,得到第一数据集对应的第一占比以及第二数据集对应的第二占比;
计算所述第一占比与第二占比之差的绝对值与所述第一占比与第二占比之和的比值,将所述比值确定为差异度。


5.根据权利要求3所述的方法,其中,所述属性值为连续分布时,确定所述特征变量为连续值变量,所述利用预设的对比算法计算所述特征变量在第一数据集中的第一分布状态与在第二数据集中的第二分布状态的差异度,包括:
根据所述连续值变量在第一数据集中的第一取值以及第一数量,计算所述连续值变量取值的第一平均值以及第一标准差;
利用所述第一平均值以及第一标准差转换所述连续值变量在第二数据集中的第二取值,得...

【专利技术属性】
技术研发人员:郑佳尔秦一焜
申请(专利权)人:第四范式北京技术有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1