The invention discloses a data cleaning method and equipment. In the pre setting the index table and index statistics maintenance cleaning code template, when the arrival time synchronization according to the current state for statistical effective maintenance task list and index cleaning code template configuration data cleaning tasks, and the testing of the data cleaning, only in the data cleaning operation is tested successfully according to the index statistical tables and indexes of cleaning maintenance task scheduling code template configuration, and the data cleaning tasks issued to the production environment, to make the data warehouse for data cleaning. Thus, the data cleaning task can be automatically executed, the workload of data warehouse developers is reduced, and the efficiency of data development is improved.
【技术实现步骤摘要】
一种数据清洗方法及设备
本专利技术涉及通信
,特别涉及一种数据清洗方法。本专利技术同时还涉及一种数据清洗设备。
技术介绍
随着DT(DataTechnology,数据处理技术)时代的到来,数据价值日益凸显。对于互联网的平台运营商或者服务提供商来说,其各项业务对数据的需求正达到一个前所未有的高度。如何针对已有的数据进行深入分析以及从数据中挖掘潜在的价值,成为本领域技术人员首要解决的技术问题。目前,业务团队和处理数据的技术人员正在逐步建立更加紧密的合作关系,其中一个重要的合作领域是模型部署。以可信体系的数据处理为例,该体系通过部署一套离线模型对某个账户在某个环境下的操作是否可信进行识别,通过仅允许白名单的方式降低对用户的打扰,以此提升用户的使用体验。该可信模型基于账户和各种环境信息(MAC(MediaAccessControl,媒体介入控制层)、UMID(UniqueMaterialIdentifier,唯一素材识别码)、TID(THREADIdentifier,线程控制符)等等)下的固定指标进行可信等级标识(如指标A>1,指标B>2标识为等级一,指标A>3,指标B>4标识为等级二)。业务团队相应的模型建设人员负责模型指标和阈值的确定,处理数据的技术人员负责基础指标的清洗,模型部署和数据推送至应用系统,完成整个数据链路闭环。当模型建设人员向处理数据的技术人员提交模型部署需求后,处理数据的技术人员在承接需求后需要进行开发排期,指标清洗和模型部署等一系列的操作,执行完这一系列的流程。有时候在处理数据的技术人员资源紧张时,模型部署会有较 ...
【技术保护点】
一种数据清洗方法,其特征在于,预先设置指标统计维护任务表以及指标清洗代码模板,该方法包括:当到达同步时刻时,根据当前状态为有效的指标统计维护任务表以及所述指标清洗代码模板配置数据清洗任务,所述指标统计维护任务表包含当前用于指标清洗的元素及其对应的数据;对所述数据清洗任务进行运行测试;若所述数据清洗任务运行测试成功,根据所述指标统计维护任务表以及所述指标清洗代码模板进行调度配置,并将所述数据清洗任务发布至生产环境,以使数据仓库进行数据清洗。
【技术特征摘要】
1.一种数据清洗方法,其特征在于,预先设置指标统计维护任务表以及指标清洗代码模板,该方法包括:当到达同步时刻时,根据当前状态为有效的指标统计维护任务表以及所述指标清洗代码模板配置数据清洗任务,所述指标统计维护任务表包含当前用于指标清洗的元素及其对应的数据;对所述数据清洗任务进行运行测试;若所述数据清洗任务运行测试成功,根据所述指标统计维护任务表以及所述指标清洗代码模板进行调度配置,并将所述数据清洗任务发布至生产环境,以使数据仓库进行数据清洗。2.如权利要求1所述的方法,其特征在于,对所述数据清洗任务进行运行测试,具体为:根据所述数据清洗任务执行试跑流程,并判断所述试跑流程是否成功;若所述试跑流程成功,对通过所述试跑流程得到的结果数据进行验证;若所述数据的验证通过,确认所述数据清洗任务运行测试成功;若所述试跑流程失败或所述数据的验证不通过,确认所述数据清洗任务运行测试失败。3.如权利要求2所述的方法,其特征在于,根据所述数据清洗任务执行试跑流程,具体为:运行所述指标清洗代码模板;根据所述指标清洗代码模板读取所述指标统计维护任务表,并对所述指标统计维护任务表中各所述元素对应的数据进行解析;根据解析结果以及所述指标清洗代码模板拼接生成SQL语句,并运行所述SQL语句。4.如权利要求1所述的方法,其特征在于,在到达同步时刻之前,还包括:获取与各所述指标统计维护任务表的当前的状态;若存在状态为待业务审批的指标统计维护任务表,对所述指标统计维护任务表进行业务审批,并在所述业务审批通过后将所述指标统计维护任务表的状态更新为待技术审核;若存在状态为待技术审核的指标统计维护任务表,对所述指标统计维护任务表进行技术审核,并在所述技术审核通过后将所述指标统计维护任务表的状态更新为有效。5.如权利要求4所述的方法,其特征在于,还包括:若状态为待业务审批的指标统计维护任务表的业务审批不通过,将所述指标统计维护任务表的状态更新为业务审批待修改,以及将状态为所述业务审批待修改的指标统计维护任务表在修改后的状态更新为待业务审批;若状态为待技术审核的指标统计维护任务表的技术审核不通过,将所述指标统计维护任务表的状态更新为技术审核待修改,以及将状态为所技术审核待修改的指标统计维护任务表在修改后的状态更新为待技术审核。6.如权利要求4所述的方法,其特征在于,在获取与各所述指标统计维护任务表的当前的状态之前,还包括:当接收到数据清洗任务新增请求时,根据所述数据清洗任务新增请求中携带的各所述元素对应的数据生成新增的指标统计维护任务表,并将所述新增的指标统计维护任务表的状态设置为待业务审批;当接收到数据清洗任务修改请求时,根据所述数据清洗任务修改请求中携带的待修改元素对应的数据以及所述数据清洗任务修改请求对应的原始指标统计维护任务表生成新增的指标统计维护任务表,并将所述新增的指标统计维护任务表的状态设置为待业务审批。7.如权利要求6所述的方法,其特征在于,还包括:若状态为所技术审核待修改或所述业务审批待修改的指标统计维护任务表在预设的时间阈值内未被修改,将所述指标统计维护任务表的状态更新为无效。8.一种数据清洗设备,其特征在于,所述设备预先设置指标统计维护...
【专利技术属性】
技术研发人员:王立伟,
申请(专利权)人:阿里巴巴集团控股有限公司,
类型:发明
国别省市:开曼群岛,KY
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。