一种基于离群点的数据清洗及预警方法技术

技术编号:41291381 阅读:20 留言:0更新日期:2024-05-13 14:42
本发明专利技术公开了一种基于离群点的数据清洗及预警方法,包括:根据配置值,获取相应数据库中的历史数据;利用希尔排序算法对所述历史数据中的同一变量进行排序,同时获取所述历史数据的上四分位Q3、中位数Q2、下四分位Q1;计算IQR=Q3‑Q1,存储[Q3+1.5*IQR,Q1–1.5*IQR]为正常数据区间;利用通信规约采集实时数据:若所述实时数据属于所述[Q1–1.5*IQR,Q3+1.5*IQR]区间,则为正常数据,并将其直接存储于实时数据库中;若所述实时数据不属于所述[Q1–1.5*IQR,Q3+1.5*IQR]区间,则读取配置使用所述中位数Q2进行替换或将其原值存储至实时数据库中,并给出预警信息。本发明专利技术能够去除数据中的错误、异常问题,提高数据质量、增强数据价值、加速数据分析和决策。

【技术实现步骤摘要】

本专利技术涉及大数据处理的,尤其涉及一种基于离群点的数据清洗及预警方法


技术介绍

1、目前,在实际工程中,存储在数据仓库中的数据是面向某一主题的数据集合,大量数据从多个业务系统抽取而来或采集而来,包含的历史数据不可避免有数据是错误数据、相互冲突的数据,这些数据显然不是想要的数据,称为脏数据,需要按照一定的规则把脏数据洗掉,即数据清洗,清洗的主要任务就是过滤那些不符合要求的数据,也是确保数据质量、提高数据处理效率、提升数据分析结果和避免潜在的数据泄露风险的重要步骤。

2、cn110362559a公开了一种基于局部遍历密度聚类的ads-b航迹清洗与校准方法,将航行轨迹数据通过局部遍历密度聚类算法对速度、经度、纬度、压力高度等字段进行清洗与校准,使航行轨迹数据内的航迹点满足质点运动学规律,但车辆行驶数据不同于航迹数据,大部分不会受到压力、气流影响。

3、cn112748452a公开了一种基于路网数据的gps轨迹清洗方法,利用城市路网空间数据,优化gps清洗数据,使得对异常值的剔除和跳跃点之间的补植更符合真实情况,该方法虽然能将速度与经度本文档来自技高网...

【技术保护点】

1.一种基于离群点的数据清洗及预警方法,其特征在于,包括:

2.根据权利要求1所述的基于离群点的数据清洗及预警方法,其特征在于,所述配置值包括数据库中的IP、端口、帐号、密码参数,以用于配置不同数据库中各类表的历史数据。

3.根据权利要求1或2所述的基于离群点的数据清洗及预警方法,其特征在于,所述历史数据为各数据库中产生的记录值,其以特定的编号、时间作为唯一键与数据值作为存储类型。

4.根据权利要求1所述的基于离群点的数据清洗及预警方法,其特征在于,当所述历史数据的个数为偶数时,Q2为中间两个数的平均值,若为奇数,Q2等于中间数;</p>

5.根据...

【技术特征摘要】

1.一种基于离群点的数据清洗及预警方法,其特征在于,包括:

2.根据权利要求1所述的基于离群点的数据清洗及预警方法,其特征在于,所述配置值包括数据库中的ip、端口、帐号、密码参数,以用于配置不同数据库中各类表的历史数据。

3.根据权利要求1或2所述的基于离群点的数据清洗及预警方法,其特征在于,所述历史数据为各数据库中产生的记录值,其以特定的编号、时间作为唯一键与数据值作为存储类型。

【专利技术属性】
技术研发人员:张杭袁昌亮
申请(专利权)人:南京因泰莱软件技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1