【技术实现步骤摘要】
大数据清洗方法、装置、计算机设备及存储介质
[0001]本申请涉及大数据应用领域,具体涉及一种大数据清洗方法、装置、计算机设备及存储介质。
技术介绍
[0002]数据清洗(Datacleaning)是对数据进行重新审查和校验的过程,以删除重复信息、纠正存在的错误,检查不完整数据等多类数据。可见,数据清洗可以发现并纠正数据文件中可识别的错误,通常包括检查数据一致性,处理无效值和缺失值等,可以依据实际情况选择合适的数据清洗方法。
[0003]其中,在依据业务数据中的缺失值、异常值等异常数据进行清洗处理过程中,受限于计算机设备的计算能力,通常是采用如直接舍弃、对临近数据进行平滑处理、平均值(中位数)替代、对采用拟合曲线拟合出的数值进行替代等简单固定运算实现,处理过程虽然简单但数据清洗效果很差,且清洗速度也比较低。
技术实现思路
[0004]为了解决上述问题,本申请实施例提供如下技术方案:
[0005]一方面,本申请提出了一种大数据清洗方法,所述方法包括:
[0006]接收来自数据源的待清洗数 ...
【技术保护点】
【技术特征摘要】
1.一种大数据清洗方法,其特征在于,所述方法包括:接收来自数据源的待清洗数据,获得对应的目标数据清洗策略;检测到数据清洗策略调整事件,依据所述目标数据清洗策略对所述待清洗数据进行清洗处理,得到清洗数据,同时依据调整后的待定数据清洗策略对所述待清洗数据进行预清洗处理,得到预清洗数据;获得针对所述待定数据清洗策略的应用判定结果;所述应用判定结果能够表征是否应用所述待定数据清洗策略继续对接收到的待清洗数据进行清洗处理;依据所述应用判定结果,得到所述待清洗数据的目标清洗数据;所述目标清洗数据为所述清洗数据或所述预清洗数据。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:将处理得到的所述清洗数据写入第一数据库进行存储;和/或,将处理得到的所述预清洗数据写入第二数据库进行存储;按照所述应用判定结果对应的同步方式,对第一数据库和第二数据库进行数据同步。3.根据权利要求2所述的方法,其特征在于,所述按照所述应用判定结果对应的同步方式,对第一数据库和第二数据库进行数据同步,,包括:若所述应用判定结果为是,将所述目标清洗数据写入所述第一数据库进行存储,删除所述第一数据库存储的对应处理得到的所述清洗数据;若所述应用判定结果为否,将所述目标清洗数据写入所述第二数据库进行存储,删除所述第二数据库存储的对应处理得到的所述预清洗数据。4.根据权利要求1所述的方法,其特征在于,所述方法还包括:将来自所述数据源的待清洗数据写入第三数据库进行存储;所述第三数据库配置有数据存储周期,以删除存储时长达到所述数据存储周期的所述待清洗数据;禁止响应针对所述第三数据库存储的待清洗数据的清洗处理指令和数据同步指令。5.根据权利要求1
‑
4任一项所述的方法,其特征在于,所述获得对应的目标数据清洗策略,包括:获取所述待清洗数据的数据特征;依据所述数据特征和预配置的清洗深度策略,确定针对所述待清洗数据的目标数据清洗策略;其中,所述目标数据清洗策略包括至少一个清洗深度对应的数据清洗模型,所述数据清洗模型基于机器学习算法和/或清洗算法训练得到,以实现对带清洗数据的清洗处理。6.根据权利要求1
‑
4任一项所述的方法,其特征在于,所述获得针对所述待定数...
【专利技术属性】
技术研发人员:宋平,
申请(专利权)人:中国银行股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。