一种甄别异常数据的方法及系统技术方案

技术编号:10786823 阅读:117 留言:0更新日期:2014-12-17 13:46
本发明专利技术实施例公开了一种甄别异常数据的方法,其在有多个样本数据集合上实现,该方法包括:获取第一样本数据集合以及对应的多个业务类型;在对应的每一业务类型中均设置筛选规则,并根据设置的筛选规则,得到每一业务类型的筛选数据;判断每一业务类型的筛选数据是否均存在于除第一样本数据集合之外的多个样本数据集合筛选的对比数据集合中;如果是,则确定筛选数据均为异常数据。本发明专利技术实施例,可以矫正采样过程中存在偏差,分析结果就会出现较大误差的问题,且可用于多个子类别采样,降低了采样结果的错误率;同时,可在复杂的大数据(数据总体,而不仅是样本集)中,迅速精准锁定所有的异常数据。

【技术实现步骤摘要】
一种甄别异常数据的方法及系统
本专利技术涉及电力系统营销稽查
,尤其涉及一种甄别异常数据的方法及系统。
技术介绍
电力系统营销稽查是依据有关政策、法规和规章制度,对营销制度建设与执行、营销行为规范和营销工作质量等进行内部专业稽查监督。现有的常态化的营销稽查工作体系,基于统计学原理的科学抽样和评价模型,先将业务数据导入到统计软件,再通过通用统计软件的抽样模块进行抽样,最后将调查结果数据导入到统计软件进行统计推断,因此在不可收集或分析全部数据的情况下,通过收集随机样本,用较少的花费做出高精准度的推断,其缺点在于:一旦采样过程中存在任何偏差,分析结果就会出现较大误差,同时随机采样在用于多个子类别的采样时,随机采样结果的错误率会大大增加。同时,当业务数据大量增加后,通过抽样调查的方法来找出异常数据的方法存在无法查找全部异常数据且查找效率低的问题,即无法在复杂的大数据中,迅速锁定异常数据。在面对数据丰富、复杂的“大数据”时,与随机抽样分析、以最少的数据获得最多的信息的“小数据”时代不同,我们需收集、利用所有数据(至少是尽可能多的数据),即“样本=总体”,对全数据进行深度分析、挖掘,带来更高的精确性。
技术实现思路
本专利技术实施例的目的在于提供一种甄别异常数据的方法及系统,可以矫正采样过程中存在偏差,分析结果就会出现较大误差的问题,且可用于多个子类别采样,降低了采样结果的错误率,并可在复杂的大数据中,迅速锁定所有的异常数据。为了解决上述技术问题,本专利技术实施例提供了一种甄别异常数据的方法,其在有多个样本数据集合上实现,所述方法包括:获取第一样本数据集合以及所述第一样本数据集合中对应的多个业务类型;在所述获取的第一样本数据集合对应的每一业务类型中均设置筛选规则,并根据所述设置的筛选规则,得到所述第一样本数据集合中每一业务类型的筛选数据;判断所述得到的第一样本数据集合中每一业务类型的筛选数据是否均存在于除所述第一样本数据集合之外的所述多个样本数据集合筛选的对比数据集合中;如果是,则确定在相同业务类型情况下,存在于除所述第一样本数据集合之外的所述多个样本数据集合筛选的对比数据集合中的筛选数据为异常数据。其中,所述在所述获取的第一样本数据集合对应的每一业务类型中均设置筛选规则,并根据所述设置的筛选规则,得到所述第一样本数据集合中每一业务类型的筛选数据的具体步骤包括:在所述获取的第一样本数据集合中,根据所述第一样本数据集合对应的每一业务类型,设置每一业务类型对应的筛选规则所含的一个或多个筛选属性;根据所述设置的每一业务类型对应的筛选规则所含的一个或多个筛选属性,得到所述第一样本数据集合中每一业务类型的筛选数据;其中,所述筛选数据为所述第一样本数据集合中每一业务类型通过对应的一个或多个筛选属性筛选而成的数据集合。其中,所述判断所述得到的第一样本数据集合中每一业务类型的筛选数据是否均存在于除所述第一样本数据集合之外的所述多个样本数据集合筛选的对比数据中的具体步骤包括:获取所述第一样本数据集合中每一业务类型对应设置的筛选规则;将所述获取的每一业务类型对应设置的筛选规则,分别设置在除所述第一样本数据集合之外的所述多个样本数据集合中,得到每一业务类型的对比数据集合;判断在所述第一样本数据集合中得到的每一业务类型的筛选数据是否包含于相同业务类型对应的对比数据集合内。其中,所述业务类型包括业扩报装、用电变更、抄核收、计量、用电检查、客户服务、线损管理。本专利技术实施例还提供了一种甄别异常数据的系统,所述系统包括:获取单元、筛选单元、判断单元以及确定单元;其中,所述获取单元,用于获取第一样本数据集合以及所述第一样本数据集合中对应的多个业务类型;所述筛选单元,用于在所述获取的第一样本数据集合对应的每一业务类型中均设置筛选规则,并根据所述设置的筛选规则,得到所述第一样本数据集合中每一业务类型的筛选数据;所述判断单元,用于判断所述得到的第一样本数据集合中每一业务类型的筛选数据是否均存在于除所述第一样本数据集合之外的所述多个样本数据集合筛选的对比数据集合中;所述确定单元,用于在相同业务类型情况下,存在于除所述第一样本数据集合之外的所述多个样本数据集合筛选的对比数据集合中的筛选数据均为异常数据。其中,所述筛选单元包括:设置模块,用于在所述获取的第一样本数据集合中,根据所述第一样本数据集合对应的每一业务类型,设置每一业务类型对应的筛选规则所含的一个或多个筛选属性;筛选模块,用于根据所述设置的每一业务类型对应的筛选规则所含的一个或多个筛选属性,得到所述第一样本数据集合中每一业务类型的筛选数据;其中,所述筛选数据为所述第一样本数据集合中每一业务类型通过对应的一个或多个筛选属性筛选而成的数据集合。其中,所述判断单元包括:第一获取模块,用于获取所述第一样本数据集合中每一业务类型对应设置的筛选规则;第二获取模块,用于将所述获取的每一业务类型对应设置的筛选规则,分别设置在除所述第一样本数据集合之外的所述多个样本数据集合中,得到每一业务类型的对比数据集合;判断模块,用于判断在所述第一样本数据集合中得到的每一业务类型的筛选数据是否包含于相同业务类型对应的对比数据集合内。其中,所述业务类型包括业扩报装、用电变更、抄核收、计量、用电检查、客户服务、线损管理。实施本专利技术实施例,具有如下有益效果:在本专利技术实施例中,由于在一样本数据集合中每一个业务类型均设置筛选规则,从而实现同时用于多个子类别采样,降低了采样结果的错误率,并且将每一个业务类型对应得到的筛选数据与除该样本数据集合之外的其它数据集合进行对比,从而迅速锁定异常数据,矫正了采样过程中存在偏差,分析结果就会出现较大误差的问题。同时,在面对数据丰富、复杂的“大数据”时,能够对业务总体的全部数据(即“样本=总体”),按照设置的筛选规则进行异常数据筛查,迅速、精准锁定所有的异常数据,实现对全数据的深度分析、挖掘,带来更高的精确性。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,根据这些附图获得其他的附图仍属于本专利技术的范畴。图1为本专利技术实施例提供的甄别异常数据的方法的流程图;图2为本专利技术实施例提供的甄别异常数据的系统的结构示意图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。如图1所示,本专利技术实施例中,提出一种甄别异常数据的方法,其在有多个样本数据集合上实现,所述方法包括:步骤S101、获取第一样本数据集合以及所述第一样本数据集合中对应的多个业务类型;其中,业务类型包括但不限于业扩报装、用电变更、抄核收、计量、用电检查、客户服务、线损管理。步骤S102、在所述获取的第一样本数据集合对应的每一业务类型中均设置筛选规则,并根据所述设置的筛选规则,得到所述第一样本数据集合中每一业务类型的筛选数据;具体过程为,在第一样本数据集合中,根据第一样本数据集合对应的每一业务类型,设置每一业务类型对应的筛选规则所含的一个或多个本文档来自技高网...
一种甄别异常数据的方法及系统

【技术保护点】
一种甄别异常数据的方法,其特征在于,其在有多个样本数据集合上实现,所述方法包括:获取第一样本数据集合以及所述第一样本数据集合中对应的多个业务类型;在所述获取的第一样本数据集合对应的每一业务类型中均设置筛选规则,并根据所述设置的筛选规则,得到所述第一样本数据集合中每一业务类型的筛选数据;判断所述得到的第一样本数据集合中每一业务类型的筛选数据是否均存在于除所述第一样本数据集合之外的所述多个样本数据集合筛选的对比数据集合中;如果是,则确定在相同业务类型情况下,存在于除所述第一样本数据集合之外的所述多个样本数据集合筛选的对比数据集合中的筛选数据为异常数据。

【技术特征摘要】
1.一种甄别异常数据的方法,其特征在于,其在有多个样本数据集合上实现,所述方法包括:获取第一样本数据集合以及所述第一样本数据集合中对应的多个业务类型;在所述获取的第一样本数据集合对应的每一业务类型中均设置筛选规则,并根据所述设置的筛选规则,得到所述第一样本数据集合中每一业务类型的筛选数据;判断所述得到的第一样本数据集合中每一业务类型的筛选数据是否均存在于除所述第一样本数据集合之外的所述多个样本数据集合筛选的对比数据集合中;如果是,则确定在相同业务类型情况下,存在于除所述第一样本数据集合之外的所述多个样本数据集合筛选的对比数据集合中的筛选数据为异常数据;其中,所述在所述获取的第一样本数据集合对应的每一业务类型中均设置筛选规则,并根据所述设置的筛选规则,得到所述第一样本数据集合中每一业务类型的筛选数据的具体步骤包括:在所述获取的第一样本数据集合中,根据所述第一样本数据集合对应的每一业务类型,设置每一业务类型对应的筛选规则所含的一个或多个筛选属性;根据所述设置的每一业务类型对应的筛选规则所含的一个或多个筛选属性,得到所述第一样本数据集合中每一业务类型的筛选数据;其中,所述筛选数据为所述第一样本数据集合中每一业务类型通过对应的一个或多个筛选属性筛选而成的数据集合。2.如权利要求1所述的方法,其特征在于,所述判断所述得到的第一样本数据集合中每一业务类型的筛选数据是否均存在于除所述第一样本数据集合之外的所述多个样本数据集合筛选的对比数据集合中的具体步骤包括:获取所述第一样本数据集合中每一业务类型对应设置的筛选规则;将所述获取的每一业务类型对应设置的筛选规则,分别设置在除所述第一样本数据集合之外的所述多个样本数据集合中,得到每一业务类型的对比数据集合;判断在所述第一样本数据集合中得到的每一业务类型的筛选数据是否包含于相同业务类型对应的对比数据集合内。3.如权利要求1或2所述的方法,其特征在于,所述业务类型包括业扩...

【专利技术属性】
技术研发人员:钟聪罗陆宁戴斌李涛李炳要张斌黄龙茂张志闻沈斯伟叶国雄邰刚刘启彬林尧铭黄令忠刘旸区彦黛苏思敏潘裕斌侯玉李嘉星
申请(专利权)人:深圳供电局有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1