System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及计算机,尤其涉及一种数据清洗方法、装置、电子设备及存储介质。
技术介绍
1、随着视频软件的发展,为了提高用户体验,一般需要运用大数据技术采集用户数据,并对用户数据进行分析和挖掘以更好地完善视频软件中的视频。
2、然而,实际应用中,用户数据可能存在虚假数据,例如为了提高某个视频的播放量,存在一部分用户采用虚假账号或雇佣他人刷流量等方式构建虚假用户数据。该虚假数据则会导致对用户数据分析得到的结果不准确,影响用户体验。
3、对此,针对采集的用户数据需要进行清洗,也即将用户数据中的虚假数据清洗出来。现有技术中,需要针对待清洗数据制定专门的清洗策略,然后按照清洗策略对数据进行逐步清洗。
4、然而,上述方法由于需要针对待清洗数据制定专门的清洗策略,其不仅清洗耗时较长,效率低,而且扩展性较低,无法完全复用在对其他业务数据的清洗任务中。
技术实现思路
1、本申请提供了一种数据清洗方法、装置、电子设备及存储介质,以解决现有技术中需要针对待清洗数据制定专门的清洗策略,其不仅清洗耗时较长,效率低,而且扩展性较低,无法完全复用在对其他业务数据的清洗任务中的技术问题。
2、第一方面,本申请提供了一种数据清洗方法,应用于数据清洗系统,所述方法包括:
3、确定待清洗数据,并获取所述待清洗数据对应的清洗策略;
4、根据所述清洗策略,确定所述待清洗数据对应的至少一个黑名单;
5、根据至少一个所述黑名单,对所述待清洗数据进行
6、作为一可能的实现方式,连接多个集群,所述确定待清洗数据,包括:
7、通过可视化界面获取集群标识;
8、根据所述集群标识,从多个集群中确定目标集群;
9、将所述目标集群存储的数据确定为待清洗数据。
10、作为一可能的实现方式,所述获取所述待清洗数据对应的清洗策略,包括:
11、通过可视化界面获取用户输入的清洗策略;
12、或者,
13、获取当前存储多个历史清洗策略,并通过可视化界面输出多个所述历史清洗策略;
14、响应于针对多个所述历史清洗策略的选择操作,确定目标历史清洗策略;
15、将所述目标历史清洗策略确定为所述待清洗数据对应的清洗策略。
16、作为一可能的实现方式,所述根据所述清洗策略,确定所述待清洗数据对应的至少一个黑名单,包括:
17、获取所述清洗策略对应的目标sql语句,所述目标sql语句用于根据所述清洗策略对预设数据进行清洗,并将清洗出的数据写入预设的黑名单,所述预设数据为定时或实时从连接的多个集群中获取的数据;
18、执行所述目标sql语句,得到所述待清洗数据对应的至少一个黑名单。
19、作为一可能的实现方式,所述根据所述清洗策略,确定所述待清洗数据对应的至少一个黑名单,包括:
20、获取当前存储的多个黑名单;根据所述清洗策略,从多个所述黑名单中匹配出所述清洗策略对应的至少一个黑名单,并将至少一个所述黑名单确定为所述待清洗数据对应的至少一个黑名单;
21、或者,
22、获取当前存储的多个黑名单,并通过可视化界面输出多个所述黑名单;响应于接收到的用户针对所述黑名单的选择操作,将所述选择操作对应的至少一个黑名单确定为所述待清洗数据对应的至少一个黑名单。
23、作为一可能的实现方式,所述根据至少一个所述黑名单,对所述待清洗数据进行清洗,得到清洗后的目标数据,包括:
24、获取所述待清洗数据对应的原始表和清洗策略表,所述原始表包括所述待清洗数据和所述待清洗数据对应的清洗维度标识,所述清洗策略表包括所述清洗策略和至少一个所述黑名单的黑名单标识,其中一个黑名单对应一个对待清洗数据的清洗维度;
25、根据所述清洗策略表中的清洗策略,生成清洗sql语句;
26、执行所述清洗sql语句,以根据所述清洗维度标识和所述黑名单标识对应的黑名单对所述原始表和所述清洗策略表进行预设的外连接操作,得到结果表,所述结果表包括所述目标数据。
27、作为一可能的实现方式,在所述得到清洗后的目标数据之后,还包括:
28、确定未进行数据清洗的其他目标集群;
29、将所述目标数据定时或实时发送至所述其他目标集群。
30、作为一可能的实现方式,所述方法还包括:
31、获取对所述待清洗数据的清洗进度和清洗出的数据;
32、根据所述清洗进度和所述清洗出的数据,生成对应的图表数据;
33、通过可视化界面输出所述图表数据。
34、第二方面,本申请实施例提供一种数据清洗装置,应用于数据清洗系统,所述装置包括:
35、第一确定模块,用于确定待清洗数据,并获取所述待清洗数据对应的清洗策略;
36、第二确定模块,用于根据所述清洗策略,确定所述待清洗数据对应的至少一个黑名单;
37、清洗模块,用于根据至少一个所述黑名单,对所述待清洗数据进行清洗,得到清洗后的目标数据。
38、作为一可能的实现方式,连接多个集群,所述第一确定模块,包括:
39、第一获取子模块,用于通过可视化界面获取集群标识;
40、第一确定子模块,用于根据所述集群标识,从多个集群中确定目标集群;
41、第二确定子模块,用于将所述目标集群存储的数据确定为待清洗数据。
42、作为一可能的实现方式,所述第一确定模块,包括:
43、第二获取子模块,用于通过可视化界面获取用户输入的清洗策略;
44、或者,
45、第三获取子模块,用于获取当前存储多个历史清洗策略,并通过可视化界面输出多个所述历史清洗策略;
46、第三确定子模块,用于响应于针对多个所述历史清洗策略的选择操作,确定目标历史清洗策略;
47、第四确定子模块,用于将所述目标历史清洗策略确定为所述待清洗数据对应的清洗策略。
48、作为一可能的实现方式,所述第二确定模块,具体用于:
49、获取所述清洗策略对应的目标sql语句,所述目标sql语句用于根据所述清洗策略对预设数据进行清洗,并将清洗出的数据写入预设的黑名单,所述预设数据为定时或实时从连接的多个集群中获取的数据;
50、执行所述目标sql语句,得到所述待清洗数据对应的至少一个黑名单。
51、作为一可能的实现方式,所述第二确定模块,具体用于:
52、获取当前存储的多个黑名单;根据所述清洗策略,从多个所述黑名单中匹配出所述清洗策略对应的至少一个黑名单,并将至少一个所述黑名单确定为所述待清洗数据对应的至少一个黑名单;
53、或者,
54、获取当前存储的多个黑名单,并通过可视化界面输出多个所述黑名单;响应于接收到本文档来自技高网...
【技术保护点】
1.一种数据清洗方法,其特征在于,应用于数据清洗系统,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,连接多个集群,所述确定待清洗数据,包括:
3.根据权利要求1所述的方法,其特征在于,所述获取所述待清洗数据对应的清洗策略,包括:
4.根据权利要求1所述的方法,其特征在于,所述根据所述清洗策略,确定所述待清洗数据对应的至少一个黑名单,包括:
5.根据权利要求1所述的方法,其特征在于,所述根据所述清洗策略,确定所述待清洗数据对应的至少一个黑名单,包括:
6.根据权利要求1所述的方法,其特征在于,所述根据至少一个所述黑名单,对所述待清洗数据进行清洗,得到清洗后的目标数据,包括:
7.根据权利要求2所述的方法,其特征在于,在所述得到清洗后的目标数据之后,还包括:
8.根据权利要求1所述的方法,其特征在于,所述方法还包括:
9.一种数据清洗装置,其特征在于,应用于数据清洗系统,所述装置包括:
10.一种电子设备,其特征在于,包括:处理器和存储器,所述处理器用于执行所述存储
11.一种存储介质,其特征在于,所述存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现权利要求1~8中任一项所述的数据清洗方法。
...【技术特征摘要】
1.一种数据清洗方法,其特征在于,应用于数据清洗系统,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,连接多个集群,所述确定待清洗数据,包括:
3.根据权利要求1所述的方法,其特征在于,所述获取所述待清洗数据对应的清洗策略,包括:
4.根据权利要求1所述的方法,其特征在于,所述根据所述清洗策略,确定所述待清洗数据对应的至少一个黑名单,包括:
5.根据权利要求1所述的方法,其特征在于,所述根据所述清洗策略,确定所述待清洗数据对应的至少一个黑名单,包括:
6.根据权利要求1所述的方法,其特征在于,所述根据至少一个所述黑名单,对所述待清洗数据进行清洗,...
【专利技术属性】
技术研发人员:周洁芸,
申请(专利权)人:北京奇艺世纪科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。