检验异常值的数据核验方法及其系统、电子设备技术方案

技术编号:22330794 阅读:37 留言:0更新日期:2019-10-19 12:24
本发明专利技术所提供的一种检验异常值的数据核验方法,其包括提供至少两种异常检测算法并赋予其初始权重,并给不同的异常检测算法进行赋权,对数据调用不同种异常检测算法并结合不同算法的权重值给得到的待选异常样本赋予异常权重,当待检测样本的异常权重超过预设阈值,则对应待检测样本被判定为实际异常样本。基于上述的方法,可方便调用多种异常检测算法,并且可以基于权重值的分配,将不同异常检测算法的优势进行结合,从而可增加被检测异常值的置信度。本发明专利技术还提供一种检验异常值的数据核验系统及一种电子设备,具有与上述基于检验异常值的数据核验方法相同的有益效果。

Data verification method and its system and electronic equipment for checking outliers

【技术实现步骤摘要】
检验异常值的数据核验方法及其系统、电子设备
本专利技术涉及数据核验领域,其特别涉及一种检验异常值的数据核验方法及其系统、电子设备。
技术介绍
在机器学习中数据预处理阶段,由于数据处理准确度的需要,将数据集中的异常值进行检测。异常检测(AnomalyDetection)是为了发现运维中偏离正常值的异常数据,其基本检测思路可包括用正常的数据去训练模型,得到对应的值,然后再基于获得的值去判断新的数据是否存在异常。现有多种异常检测算法,但是每种异常检测算法中均有不同的检测方式及其运算标准,各个异常检测算法中具有不同的准确度。基于现有技术难以调用多种算法来检测异常值。因此,亟待提供一种可有效解决上述数据核验异常值处理的新型技术方案。
技术实现思路
为解决现有异常检测存在的技术问题,本专利技术提供一种检验异常值的数据核验方法及其系统、电子设备。本专利技术为解决上述技术问题,提供如下的技术方案:一种检验异常值的数据核验方法,其包括以下步骤:步骤S1,提供至少两种异常检测算法并赋予其初始权重;步骤S2,采用所述异常检测算法对多个待检测样本进行检测,并获得与待检测样本对应的待选异常样本;步骤S3,将所述异常检测算法的初始权重作为与待检测样本对应的待选异常样本的异常权重;及步骤S4,设定一预设阈值,当所述异常权重超过预设阈值,则对应待检测样本被判定为实际异常样本。优选地,在上述步骤S3中,当同一待检测样本被两个及以上异常检测算法选出为待选异常样本时,则该待检测样本的异常权重为多个待选异常样本的异常权重的累积值。优选地,在上述步骤S3中进一步包括:步骤S31,基于初始权重给基于对应异常检测算法获得每个待选异常样本赋予对应的权重值;步骤S32,依次获取不同待检测样本在不同种异常检测算法对应待选异常样本的权重值;及步骤S33,将同一待检测样本对应的多个待选异常样本的权重值进行累积,获得与待检测样本对应的异常权重。优选地,所述异常检测算法包括基于原则的异常检测算法、基于箱线图的异常检测算法、基于模型检测的异常检测算法、基于近邻度的离群点检测的异常检测算法或基于密度的离群点检测的异常检测算法中一种或几种的组合。优选地,在上述步骤S2中,还包括:将与同一待检测样本对应的待选异常样本存储以形成待选异常样本集合。优选地,在上述步骤S1中,具体可基于待检测样本的数据类型选取至少两种异常检测算法,且对每种异常检测算法赋予初始权重。本专利技术为解决上述技术问题,提供又一技术方案如下:一种检验异常值的数据核验系统,其包括:算法权重获取模块,被配置为用于提供至少两种异常检测算法并对应赋予初始权重;检测待选异常样本模块,被配置为用于采用所述异常检测算法对多个待检测样本进行检测,并获得与待检测样本对应的待选异常样本;待选异常样本赋权模块,被配置为用于将所述异常检测算法的初始权重作为与待检测样本对应的待选异常样本的异常权重;及权重比较模块,被配置为用于设定一预设阈值,当所述异常权重超过预设阈值,则对应待检测样本被判定为实际异常样本。优选地,所述检测待选异常样本模块进一步包括:算法检测模块,被配置为用于采用选取的异常检测算法对所述待检测样本进行检测;及待选异常样本判定模块,被配置为用于利用异常检测算法对待检测样本进行检测,得出对应的待检测样本为待选异常样本,并将对应的待检测样本存储以形成待选异常样本集合。优选地,所述待选异常样本赋权模块进一步包括:权重值赋值模块,被配置为用于基于初始权重给对应不同种异常检测算法获得的每个待选异常样本赋予对应的权重值;权重值获取模块,被配置为用于依次获取不同待检测样本在不同种异常检测算法对应待选异常样本的权重值;及权重值累积模块,被配置为用于将同一待检测样本对应的多个待选异常样本的权重值进行累积,获得与待检测样本对应的异常权重。本专利技术为解决上述技术问题,提供又一技术方案如下:一种电子设备,其包括存储单元和处理单元,所述存储单元用于存储计算机程序,所述处理单元用于通过所述存储单元存储的计算机程序执行如上所述基于检验异常值的数据核验方法的步骤。与现有技术相比,本专利技术所提供一种检验异常值的数据核验方法及其系统、电子设备具有如下的有益效果:本专利技术所提供的一种检验异常值的数据核验方法,可基于所需要检测异常值的数据选择合适的异常检测算法的特点,并可进一步基于数据的特点赋予不同异常检测算法对应的初始权重,对数据调用某几种异常检测算法并结合不同算法的权重值给得到的待选异常样本赋予异常权重,当待检测样本的异常权重超过预设阈值,则对应待检测样本被判定为实际异常样本。基于上述的方法,可方便调用多种异常检测算法,并且可以基于权重值的分配,将不同异常检测算法的优势进行结合,从而可增加被检测异常值的置信度。进一步地,当某一待检测样本被多种异常检测算法选出时,则其对应的待选异常样本的权重会累积,因此,可基于同一待检测样本在不同异常检测算法检出的结果进行累加,则可综合多个待检测样本在不同异常检测算法中的判断结果,从而可进一步提高所述待选异常样本检测的置信度。在本专利技术中,对所述异常检测算法的具体类型的限定,可提高检验异常值的数据核验方法的适用性,具体可基于待检测样本的特点选择适合的异常检测算法,从而也可提高异常检测算法的准确度。在本专利技术中,采用至少两种异常检测算法对多个待检测样本进行检测,并获得与待检测样本对应的待选异常样本后,可进一步将与同一待检测样本对应的待选异常样本存储以形成待选异常样本集合,形成的异常数据集合可便于后续对待检测样本的异常值的进一步检测和评估。本专利技术还提供一种检验异常值的数据核验系统及一种电子设备,具有与上述基于检验异常值的数据核验方法相同的有益效果,可以可方便调用多种异常检测算法,并且可以基于权重值的分配,将不同异常检测算法的优势进行结合,从而可增加被检测异常值的置信度。【附图说明】图1是本专利技术第一实施例中所提供的检验异常值的数据核验方法的步骤流程示意图。图2是图1中所示步骤S2中的细分步骤流程示意图。图3是图1中所示步骤S3中的细分步骤流程示意图。图4是本专利技术第二实施例中所提供的检验异常值的数据核验系统的功能模块示意图。图5是图4中所示检测待选异常样本模块的具体功能模块示意图。图6是图4中所示待选异常样本赋权模块的具体功能模块示意图。图7是本专利技术第三实施例中所提供的电子设备的功能模块示意图。附图标识说明:20、检验异常值的数据核验系统;21、算法权重获取模块;22、检测待选异常样本模块;23、待选异常样本赋权模块;24、权重比较模块;221、算法检测模块;222、待选异常样本判定模块;231、权重值赋值模块;232、权重值获取模块;233、权重值累积模块;30、电子设备;31、存储单元;32、处理单元。【具体实施方式】为了使本专利技术的目的,技术方案及优点更加清楚明白,以下结合附图及实施实例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。请参阅图1,本专利技术的第一实施例提供一种检验异常值的数据核验方法S10,其包括以下步骤:步骤S1,提供至少两种异常检测算法并赋予其初始权重;步骤S2,采用所述异常检测算法对多个待检测样本进行检测,并获得与待检测样本对应的待选异常样本;步骤S3,本文档来自技高网...

【技术保护点】
1.一种检验异常值的数据核验方法,其特征在于:其包括以下步骤:步骤S1,提供至少两种异常检测算法并对应赋予初始权重;步骤S2,采用所述异常检测算法对多个待检测样本进行检测,并获得与待检测样本对应的待选异常样本;步骤S3,将所述异常检测算法的初始权重作为与待检测样本对应的待选异常样本的异常权重;及步骤S4,设定一预设阈值,当所述异常权重超过预设阈值,则对应待检测样本被判定为实际异常样本。

【技术特征摘要】
1.一种检验异常值的数据核验方法,其特征在于:其包括以下步骤:步骤S1,提供至少两种异常检测算法并对应赋予初始权重;步骤S2,采用所述异常检测算法对多个待检测样本进行检测,并获得与待检测样本对应的待选异常样本;步骤S3,将所述异常检测算法的初始权重作为与待检测样本对应的待选异常样本的异常权重;及步骤S4,设定一预设阈值,当所述异常权重超过预设阈值,则对应待检测样本被判定为实际异常样本。2.如权利要求1中所述检验异常值的数据核验方法,其特征在于:在上述步骤S3中,当同一待检测样本被两个及以上异常检测算法选出为待选异常样本时,则所述待检测样本的异常权重为多个待选异常样本的异常权重的累积值。3.如权利要求2中所述检验异常值的数据核验方法,其特征在于:在上述步骤S3中进一步包括:步骤S31,基于初始权重给基于对应异常检测算法获得每个待选异常样本赋予对应的权重值;步骤S32,依次获取不同待检测样本在不同种异常检测算法对应待选异常样本的权重值;及步骤S33,将同一待检测样本对应的多个待选异常样本的权重值进行累积,获得与待检测样本对应的异常权重。4.如权利要求1中所述检验异常值的数据核验方法,其特征在于:所述异常检测算法包括基于原则的异常检测算法、基于箱线图的异常检测算法、基于模型检测的异常检测算法、基于近邻度的离群点检测的异常检测算法或基于密度的离群点检测的异常检测算法中一种或几种的组合。5.如权利要求1中所述检验异常值的数据核验方法,其特征在于:在上述步骤S2中,还包括:将与同一待检测样本对应的待选异常样本存储以形成待选异常样本集合。6.如权利要求1中所述检验异常值的数据核验方法,其特征在于:在上述步骤S1中,具体可基于待检测样本的数据类型选取至少两种异常检测算法,...

【专利技术属性】
技术研发人员:张发恩陈斌斌周鹏程
申请(专利权)人:创新奇智青岛科技有限公司
类型:发明
国别省市:山东,37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1