【技术实现步骤摘要】
本申请涉及计算机,尤其涉及一种数据清洗方法、装置、电子设备及存储介质。
技术介绍
1、随着视频软件的发展,为了提高用户体验,一般需要运用大数据技术采集用户数据,并对用户数据进行分析和挖掘以更好地完善视频软件中的视频。
2、然而,实际应用中,用户数据可能存在虚假数据,例如为了提高某个视频的播放量,存在一部分用户采用虚假账号或雇佣他人刷流量等方式构建虚假用户数据。该虚假数据则会导致对用户数据分析得到的结果不准确,影响用户体验。
3、对此,针对采集的用户数据需要进行清洗,也即将用户数据中的虚假数据清洗出来。现有技术中,需要针对待清洗数据制定专门的清洗策略,然后按照清洗策略对数据进行逐步清洗。
4、然而,上述方法由于需要针对待清洗数据制定专门的清洗策略,其不仅清洗耗时较长,效率低,而且扩展性较低,无法完全复用在对其他业务数据的清洗任务中。
技术实现思路
1、本申请提供了一种数据清洗方法、装置、电子设备及存储介质,以解决现有技术中需要针对待清洗数据制定专门的清洗策
...【技术保护点】
1.一种数据清洗方法,其特征在于,应用于数据清洗系统,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,连接多个集群,所述确定待清洗数据,包括:
3.根据权利要求1所述的方法,其特征在于,所述获取所述待清洗数据对应的清洗策略,包括:
4.根据权利要求1所述的方法,其特征在于,所述根据所述清洗策略,确定所述待清洗数据对应的至少一个黑名单,包括:
5.根据权利要求1所述的方法,其特征在于,所述根据所述清洗策略,确定所述待清洗数据对应的至少一个黑名单,包括:
6.根据权利要求1所述的方法,其特征在于,所述根
...【技术特征摘要】
1.一种数据清洗方法,其特征在于,应用于数据清洗系统,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,连接多个集群,所述确定待清洗数据,包括:
3.根据权利要求1所述的方法,其特征在于,所述获取所述待清洗数据对应的清洗策略,包括:
4.根据权利要求1所述的方法,其特征在于,所述根据所述清洗策略,确定所述待清洗数据对应的至少一个黑名单,包括:
5.根据权利要求1所述的方法,其特征在于,所述根据所述清洗策略,确定所述待清洗数据对应的至少一个黑名单,包括:
6.根据权利要求1所述的方法,其特征在于,所述根据至少一个所述黑名单,对所述待清洗数据进行清洗,...
【专利技术属性】
技术研发人员:周洁芸,
申请(专利权)人:北京奇艺世纪科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。