一种异常数据的校验方法和装置制造方法及图纸

技术编号:19543903 阅读:33 留言:0更新日期:2018-11-24 20:38
本发明专利技术公开了一种异常数据的校验方法和装置,涉及计算机技术领域。该方法包括:获取预设数据的已存文件的信息和所述预设数据的远程源文件的信息;根据所述远程源文件的信息验证所述已存文件,并保存所述验证得到的所述已存文件的异常数据的信息,其中,验证已存文件包括:验证已存文件的数量、每个文件大小,以及验证所述已存文件是否包括空文件;读取保存的异常数据的信息,并根据所述异常数据的信息从所述远程源文件获取所述异常数据的校正数据;将所述已存文件中的所述异常数据更新为所述校正数据。能够完善数据校验逻辑,满足多种数据异常场景,出现大量数据异常时能够快速修复下载,减缓延迟,且避免和HBase客户端耦合。

A Checking Method and Device for Abnormal Data

The invention discloses a method and device for checking abnormal data, which relates to the field of computer technology. The method includes acquiring the information of the saved file of the preset data and the information of the remote source file of the preset data, verifying the saved file according to the information of the remote source file, and storing the information of the abnormal data of the saved file obtained by the verification, in which the verification of the saved file includes: verifying the existing file; The number of files, the size of each file, and the verification of whether the existing file includes an empty file; reading the information of the stored abnormal data and obtaining the correction data of the abnormal data from the remote source file according to the information of the abnormal data; and updating the abnormal data in the existing file to the calibration. Positive data. It can improve the data validation logic to meet a variety of data anomaly scenarios. It can quickly repair downloads when a large number of data anomalies occur, slow down the delay, and avoid coupling with HBase client.

【技术实现步骤摘要】
一种异常数据的校验方法和装置
本专利技术涉及计算机
,尤其涉及一种异常数据的校验方法和装置、电子设备、计算机可读介质。
技术介绍
随着大数据技术的兴起,大多数业务都需要从不同的数据源采集数据(网站爬虫,其他业务系统,关系数据等)。在数据采集的过程中难免会出现各种问题,如数据丢失、数据重复等问题,因此需要有一个完善的数据质量校验解决方案。现有的数据质量校验解决方案利用Python(一种面向对象的解释型计算机程序设计语言)调用shell(计算机壳)命令进行数据验证和补采操作,其中,在数据验证阶段只验证下载后的文件的大小,且使用shell命令方式访问保存数据验证所得异常数据的数据库(HBase),此外,在数据补采阶段采用Python单线程的方式进行数据补采。在实现本专利技术过程中,专利技术人发现现有技术中至少存在如下问题:1、数据校验逻辑简单,只验证下载后的文件的大小,且验证文件大小的方式不合理;2、Python单线程方式进行数据修复,不能满足数据量比较大的情况;3、使用shell命令操作HBase与HBase客户端进行耦合,需要先使用HBaseshell进入HBase客户端模式,才本文档来自技高网...

【技术保护点】
1.一种异常数据的校验方法,其特征在于,包括:获取预设数据的已存文件的信息和所述预设数据的远程源文件的信息;根据所述远程源文件的信息验证所述已存文件,并保存所述验证得到的所述已存文件的异常数据的信息,其中,验证所述已存文件,包括:验证所述已存文件的数量、每个文件大小,以及验证所述已存文件是否包括空文件;读取保存的所述异常数据的信息,并根据所述异常数据的信息从所述远程源文件获取所述异常数据的校正数据;将所述已存文件中的所述异常数据更新为所述校正数据。

【技术特征摘要】
1.一种异常数据的校验方法,其特征在于,包括:获取预设数据的已存文件的信息和所述预设数据的远程源文件的信息;根据所述远程源文件的信息验证所述已存文件,并保存所述验证得到的所述已存文件的异常数据的信息,其中,验证所述已存文件,包括:验证所述已存文件的数量、每个文件大小,以及验证所述已存文件是否包括空文件;读取保存的所述异常数据的信息,并根据所述异常数据的信息从所述远程源文件获取所述异常数据的校正数据;将所述已存文件中的所述异常数据更新为所述校正数据。2.根据权利要求1所述的方法,其特征在于,已存文件的信息包括所述已存文件的大小信息和数量信息,所述远程源文件的信息包括所述远程源文件的IP地址信息以及所述远程源文件的大小信息,并且,验证所述已存文件的数量,包括:比对所述已存文件的数量和所述远程源文件的IP地址数是否一致,如果一致,则验证通过,否则验证不通过;验证所述已存文件的每个文件大小,包括:判断远程源文件的大小与已存文件的大小的比值是否在预设的区间范围内,若是,则验证通过,否则验证不通过;验证所述已存文件是否包括空文件,包括:将所述已存文件中每个文件大小与预设值进行比对,若比对一致,则所述已存文件包括空文件,否则所述已存文件不包括空文件。3.根据权利要求1所述的方法,其特征在于,所述异常数据的信息保存在HBase数据库中,且通过curl命令访问所述HBase数据库以读取所述异常数据的信息。4.根据权利要求1所述的方法,其特征在于,通过多并发线程获取所述异常数据的校正数据。5.根据权利要求1所述的方法,其特征在于,保存所述验证得到的所述已存文件的异常数据的信息之后,还包括:根据所述异常数据的信息生成监控报警消息。6.根据权利要求1所述的方法,其特征在于,将所述已存文件中的所述异常数据更新为所述校正数据之前,还包括:压缩处理所述校正数据。7.一种异常数据的校验装置,其特征在于,包括:获取模块,用于获取预设数据的已存文件的信息和所述预设数据的远程源文件的信息;验证模块,用于根据所述远程源文件的信息...

【专利技术属性】
技术研发人员:陈飞
申请(专利权)人:北京京东尚科信息技术有限公司北京京东世纪贸易有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1