【技术实现步骤摘要】
数据去重方法、装置、计算机设备和计算机可读存储介质
本申请涉及数据处理
,特别是涉及一种数据去重方法、装置、计算机设备和计算机可读存储介质。
技术介绍
在大数据分析领域,客户端通常将用户的一系列操作形成日志并上传至服务器,以便于服务器对上传的日志进行分析处理。日志的准确度是直接影响数据分析结果的主要因素之一。由于,日志上传过程中可能存在重复上传、错误上传等问题,这会导致服务器不能直接对接收到的日志进行数据分析处理。如果在数据分析处理前不对日志进行去重处理,会影响数据分析结果的准确性。在相关技术中,采用数据一一对比的方式来确定重复数据的数据,当数据长度较长时,会使得去重处理的时间周期过长,从而导致去重效率低的问题。目前针对相关技术中去重效率低的问题,尚未提出有效的解决方案。
技术实现思路
本申请实施例提供了一种数据去重方法、装置、计算机设备和计算机可读存储介质,以至少解决相关技术中去重效率低的问题。第一方面,本申请实施例提供了一种数据去重方法,包括:获取预处理后的日志数 ...
【技术保护点】
1.一种数据去重方法,其特征在于,包括:/n获取预处理后的日志数据,所述日志数据携带有去重标识;所述去重标识基于预设压缩规则以及预设时间戳提取规则对所述日志数据进行预处理得到;所述预设压缩规则至少包括哈希算法;/n解析所述日志数据,并提取所述日志数据对应的去重标识;/n判断所述去重标识是否存储在数据库中;/n若所述去重标识存储在所述数据库中,则基于所述去重标识清除获取到的日志数据,或者,基于所述去重标识清除所述数据库中的日志数据。/n
【技术特征摘要】 【专利技术属性】
1.一种数据去重方法,其特征在于,包括:
获取预处理后的日志数据,所述日志数据携带有去重标识;所述去重标识基于预设压缩规则以及预设时间戳提取规则对所述日志数据进行预处理得到;所述预设压缩规则至少包括哈希算法;
解析所述日志数据,并提取所述日志数据对应的去重标识;
判断所述去重标识是否存储在数据库中;
若所述去重标识存储在所述数据库中,则基于所述去重标识清除获取到的日志数据,或者,基于所述去重标识清除所述数据库中的日志数据。
2.根据权利要求1所述的方法,其特征在于,在所述判断所述去重标识是否存储在数据库中之后,所述方法还包括:
若所述去重标识未存储在所述数据库中,则将所述去重标识及其对应的日志数据存储至所述数据库中。
3.根据权利要求1所述的方法,其特征在于,在所述获取预处理后的日志数据之前,所述方法还包括:
获取日志数据,并基于所述预设压缩规则获取所述日志数据对应的压缩参数;
基于所述预设时间戳提取规则获取所述日志数据对应的时间戳;
根据所述压缩参数和所述时间戳,生成所述日志数据对应的去重标识;
将所述去重标识添加至所述日志数据中,得到预处理后的日志数据。
4.根据权利要求3所述的方法,其特征在于,所述基于所述预设压缩规则获取所述日志数据对应的压缩参数包括:
基于所述哈希算法获取所述日志数据对应的哈希值,并将所述哈希值作为所述压缩参数。
5.根据权利要求3所述的方法,其特征在于,所述基于所述预设时间戳提取规则获取所述日志数据对应的时间戳包括:
获取所述日志数据的数据格式,并基于所述数据格式确定目标数据解析规则;
技术研发人员:王秀双,马旭东,赵玉红,李良敏,赵春波,
申请(专利权)人:浙江岩华文化科技有限公司,
类型:发明
国别省市:浙江;33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。