【技术实现步骤摘要】
一种交通卡数据清洗方法及系统
[0001]本申请涉及数据处理
,尤其涉及一种交通卡数据清洗方法及系统。
技术介绍
[0002]在用户使用交通卡业务进行开卡、圈存以及售后等业务场景。产生的交通卡数据进行数字化处理与信息的聚合和交换,可以带来了巨大挖掘价值。但是其中有些数据的偏差与实际出入不一致,这些数据一般被称为脏数据,脏数据会使交通卡数据挖掘给出错误的判断,进而影响数据的可用性。
技术实现思路
[0003]为至少在一定程度上克服相关技术中交通卡数据中的脏数据会使交通卡数据挖掘给出错误的判断,进而影响数据的可用性的问题,本申请提供一种交通卡数据清洗方法及系统。
[0004]本申请的方案如下:
[0005]根据本申请实施例的第一方面,提供一种交通卡数据清洗方法,包括:
[0006]通过预先配置的清洗管道,从预先配置的数据来源获取待清洗数据;
[0007]确定数据清洗规则,根据所述数据清洗规则对所述待清洗数据进行清洗;
[0008]对清洗后的数据进行分类;清洗后的数据中 ...
【技术保护点】
【技术特征摘要】
1.一种交通卡数据清洗方法,其特征在于,包括:通过预先配置的清洗管道,从预先配置的数据来源获取待清洗数据;确定数据清洗规则,根据所述数据清洗规则对所述待清洗数据进行清洗;对清洗后的数据进行分类;清洗后的数据中至少包括多类脏数据;对所述脏数据进行二次清洗。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:配置清洗管道,定义管道含义和环境变量;确定管道数据的交付方式;所述交付方式包括:至少一次或最多一次;确定管道数据的读取状态;所述读取状态包括:按照批次处理或者流处理。3.根据权利要求1所述的方法,其特征在于,所述方法还包括:配置数据来源;所述数据来源至少包括:查询数据库、监听二进制日志文件、读取CSV文件和监听消息队列。4.根据权利要求1所述的方法,其特征在于,所述确定数据清洗规则,包括:在未接收到用户上传的自定义规则文件时,获取通用规则文件,配置通用数据清洗规则;在接收到用户上传的自定义规则文件时,根据所述自定义规则文件配置自定义数据清洗规则。5.根据权利要求1所述的方法,其特征在于,所述脏数据的类别至少包括:时间信息错误数据、开卡圈存数量...
【专利技术属性】
技术研发人员:谢登峰,赵晨曦,姜波,
申请(专利权)人:深圳市雪球科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。