一种基于两步聚类算法的异常数据诊断方法及系统技术方案

技术编号:28373530 阅读:14 留言:0更新日期:2021-05-08 00:00
本发明专利技术提供了一种基于两步聚类算法的异常数据诊断方法及系统,该方法包括:用于对具备诊断需求的数据进行自定义类别划分,确定诊断类的诊断类定义步骤,用于基于确定的诊断类按照设定策略应用两步聚类算法进行聚类处理的数据聚类步骤和用于对聚类处理后的数据进行分析和计算,确定各数据的异常指数并发现目标异常数据的异常诊断步骤。采用上述方案,以两步聚类算法为基础,基于聚类形成的分类和分类对应的数据距离进行异常数据的诊断,能够克服现有诊断技术存在的应用数据类型和数据场景局限,且能够适用于所有具备诊断需求的用户,实用性更佳,为各用户提供更稳定更精确的数据诊断结果,有利于为数据分析和处理工作提供可靠的资源基础。

【技术实现步骤摘要】
一种基于两步聚类算法的异常数据诊断方法及系统
本专利技术涉及数据清洗及处理
,尤其涉及一种基于两步聚类算法的异常数据诊断方法及系统。
技术介绍
数据清理是数据分析的一个重要步骤,而异常数据的识别和处理是有效进行数据清理和数据分析的基石。现有的研究人员多基于以下类型的异常数据识别方法进行异常数据的诊断:1、基于数据特征进行识别的方法,常用的该类型识别方法包括箱型图分析法、标准化法和距离识别法,其中,箱型图分析法通过分析识别超过上下四分位点以外一定范围的数据,将满足的数据定义为异常数据。标准化法是通过计算各数据的正态标准化值,将正态标准化值超过设定值的数据定义为异常数据。应用距离识别法进行异常数据诊断时,是基于设置的基准点开展针对各个数据对应样本点的欧氏距离或马氏距离计算,将计算结果满足设定条件的数据定义为异常数据。2.模型识别法;这类方法属于简单有监督识别,常见的模型识别方法包括贝叶斯识别法,决策树识别法,线性回归识别法等。应用这类方法实现异常数据诊断时,通过根据数据所对应的特征,去拟合获取一个尽可能符合要求的模型,后续直接应用拟合得到模型的预测功能对数据的性能进行判断,也就是利用能够代表大多数数据判断结果的模型去判断实际数据是否异常。以线性回归识别为例,其首先通过从大量数据中挖掘自变量和因变量的关系,建立两者之间的数据预测模型以代表所有样本数据中的共同趋势;然后将预测模型应用到待诊断的数据中,选取实际值与预测值差距比较大的数据,定义为异常数据。上述两种类型的异常数据识别方法中,基于数据特征识别的方法通常只能考虑特定的数据特征因素,必然导致数据诊断的结果精确度不足,实际应用时可能会导致错失重要数据,无法满足数据诊断的实际要求,且基于数据特征识别的方法一般只适用于数值型变量。相对于根据数据特征进行异常识别的方法,模型识别虽然可以同时考虑多个影响因素,但是其应用领域存在局限性,通常适用于分类型数据(例如男/女)和数值型数据(例如身高/体重)两种数据,且使用模型识别方法进行数据诊断时存在以下:1).预测模型的选择并不是一个简单的是/非两个选项,很多时候根据用户模型算法的选择,参数的选择而不同,而评估指标通常也不止一个,因此不同的用户可能会选择不同的预测模型,异常数据诊断结果对预测模型的选择依赖性过高,这就导致对用户的数据处理和分析专业能力要求比较高,适用性不佳;2).预测模型的可靠性无法得到保障,即各个类型数据对应的预测模型的质量都需要依靠海量的数据进行运算和拟合来保障,数据处理量大,运算过程繁琐,否则模型并不能真正代表数据的整体趋势;3).对于非监督类的数据诊断场景,该类方法则难以有效应用,通常这类方法应用于同时存在自变量(原因)和因变量(结果)两类参量的数据,如果针对无监督的场景或者原始数据不存在明显有效的趋势性特使时,则无法建立预测模型,由此可见,模型识别类的方法稳定性和一致性不佳,大大的限制了其对于不同数据场景的实用性。
技术实现思路
为解决上述问题,本专利技术提供了一种基于两步聚类算法的异常数据诊断方法,在一个实施例中,所述方法包括:诊断类定义步骤、执行诊断操作前,对具备诊断需求的数据进行自定义类别划分,确定用于作为聚类辅助设置信息的诊断类;数据聚类步骤、基于确定的诊断类按照设定策略应用两步聚类算法进行聚类处理;异常诊断步骤、采用设定算法对聚类处理后的数据进行分析和计算,确定各数据对应的异常指数,并依据所述异常指数发现所有的目标异常数据。在一个优选的实施例中,所述方法还包括:属性字段诊断步骤、发现所有目标异常数据后,计算剩余数据对应各特征属性的属性异常指数,选取属性异常指数满足设定条件的特征属性,将其对应的数据字段标记为异常数据字段。一个实施例中,在定义诊断类的过程中,依据待诊断数据的来源分类特征、数据类型分类特征和/或数据描述对象分类特征中的一种或多种逐层确定待诊断数据对应的类别,直至满足设定条件或无可用的分类特征,将确定的类别作为诊断类,为聚类步骤提供辅助。进一步地,在一个实施例中,所述方法还包括:在定义诊断类之前,获取待诊断数据的来源信息、数据类型信息以及数据描述对象信息,并分析各自对应的可分类丰富度以及各分类对应的数据量,基于所述可分类丰富度和数据量的分析结果选取作为定义诊断类依据的有效信息,并生成该有效信息对应的分类特征,以辅助聚类步骤。具体地,在一个实施例中,选取有效信息时,选取可分类丰富度以及各分类对应数据量均满足设定条件的信息作为有效信息;进而分析识别有效信息对应的各分类数据量满足设定超量条件的分类,进一步划分子类别作为分类特征,以均衡各诊断类对应的数据量。一个实施例中,在所述异常诊断步骤中,按照下式计算聚类后各数据的距离作为其对应的异常指数:其中,K表示诊断类的个数,d(x,y)表示数据点x和数据点y之间的距离,xij表示第i类的第j个数据点,kij表示第i类的数据记录的个数,表示第i组数据的类中心。具体地,一个可选的实施例中,在发现所有目标异常数据的过程中,将各数据的异常指数与设定的诊断指标比较,选取满足所述诊断指标的数据作为目标异常数据输出;其中,所述诊断指标为设定的异常指数阈值。一个可选的实施例中,在发现所有目标异常数据的过程中,获取各数据对应的异常指数后,将各数据的异常指数按照一定的次序排列,依据设定的诊断指标选取满足所述诊断指标的数据作为目标异常数据输出;其中,所述诊断指标为设定的异常数据比例指标或异常数据数量指标。基于上述任意一个或多个实施例的方法,本专利技术还提供一种存储介质,该存储介质上存储有可实现如上述任意一个或多个实施例所述方法的程序代码。基于上述任意一个或多个实施例所述方法的其他方面,本专利技术还提供一种基于两步聚类算法的异常数据诊断系统,该系统执行如上述任意一个或多个实施例中所述的方法。与最接近的现有技术相比,本专利技术还具有如下有益效果:本专利技术提供的一种基于两步聚类算法的异常数据诊断方法,以两步聚类的聚类算法为基础,利用两步聚类形成的分类和分类对应的距离,作为诊断异常数据的依据,采用本专利技术提供的诊断方法,能够适用于同时包含多种类型数据的对象,相对于现有技术而言,不受数据场景局限性的约束,且能够有效提升数据清洗的效率;此外,本专利技术的诊断方案摆脱了对识别模型的依赖,能够真正实现所有用户的数据诊断需求,不需要具备相当程度的模型使用经验也能够保障数据清洗结果的可靠性和稳定性,此外,本专利技术中的聚类类别可以由用户结合待诊断数据的类型和特征自定义,具备更好的灵活性,便于应用到各种场景的数据分析和处理工作中。本专利技术的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本专利技术而了解。本专利技术的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。附图说明附图用来提供对本专利技术的进一步理解,并且构成说明书的一部分,与本本文档来自技高网
...

【技术保护点】
1.一种基于两步聚类算法的异常数据诊断方法,其特征在于,所述方法包括:/n诊断类定义步骤、执行诊断操作前,对具备诊断需求的数据进行自定义类别划分,确定用于作为聚类辅助设置信息的诊断类;/n数据聚类步骤、基于确定的诊断类按照设定策略应用两步聚类算法进行聚类处理;/n异常诊断步骤、采用设定算法对聚类处理后的数据进行分析和计算,确定各数据对应的异常指数,并依据所述异常指数发现所有的目标异常数据。/n

【技术特征摘要】
1.一种基于两步聚类算法的异常数据诊断方法,其特征在于,所述方法包括:
诊断类定义步骤、执行诊断操作前,对具备诊断需求的数据进行自定义类别划分,确定用于作为聚类辅助设置信息的诊断类;
数据聚类步骤、基于确定的诊断类按照设定策略应用两步聚类算法进行聚类处理;
异常诊断步骤、采用设定算法对聚类处理后的数据进行分析和计算,确定各数据对应的异常指数,并依据所述异常指数发现所有的目标异常数据。


2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
属性字段诊断步骤、发现所有目标异常数据后,计算剩余数据对应各特征属性的属性异常指数,选取属性异常指数满足设定条件的特征属性,将其对应的数据字段标记为异常数据字段。


3.根据权利要求1所述的方法,其特征在于,在定义诊断类的过程中,依据待诊断数据的来源分类特征、数据类型分类特征和/或数据描述对象分类特征中的一种或多种逐层确定待诊断数据对应的类别,直至满足设定条件或无可用的分类特征,将确定的类别作为诊断类,为聚类步骤提供辅助。


4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在定义诊断类之前,获取待诊断数据的来源信息、数据类型信息以及数据描述对象信息,并分析各自对应的可分类丰富度以及各分类对应的数据量,基于所述可分类丰富度和数据量的分析结果选取作为定义诊断类依据的有效信息,并生成该有效信息对应的分类特征,以辅助聚类步骤。


5.根据权利要求4所述的方法,其特征在于...

【专利技术属性】
技术研发人员:汪尚闫秀媛
申请(专利权)人:北京易莱信科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1