【技术实现步骤摘要】
一种基于数据摘要去重数据的方法、装置及存储介质
本专利技术涉及数据库
,具体涉及一种基于数据摘要去重数据的方法、装置及存储介质。
技术介绍
随着社会的发展,科技的进步,互联网技术的崛起,大数据时代已然来临。如今对于数据整合商来说,数据来源的不同以及同一来源的大量重复数据,导致接入进来的数据重复率太高,数据的可用性太差,后期对数据的应用比如:数据分析、数据挖掘、用户画像的处理等带来了很大的挑战。还有大量重复数据极大地浪费了数据存储空间,白白的耗费了资源,也影响上层应用的使用展示。在数据量非常庞大的今天,多字段,海量数据的去重面临极大的挑战。传统方式的多字段比对去重以及使用数据库唯一约束来去重,去重效率太低,尤其是现如今海量数据成倍增长的时代,传统的方式已经没法满足数据处理的需要,能够快速、高效地处理数据的去重已经成为我们目前迫切需要解决的技术难题。对于海量数据,多字段的情况下,用每个字段都进行比对,时间复杂度太高,数据的处理跟不上数据的产生速度,导致大量数据的积累,造成存储资源的浪费,如果是在实时数据处理 ...
【技术保护点】
1.一种基于数据摘要去重数据的方法,其特征在于,该方法包括:/n摘要计算步骤,对要去重的数据进行摘要计算得到数据摘要;/n去重步骤,基于数据摘要在内存数据库和列存数据库的查找结果完成数据的去重。/n
【技术特征摘要】
1.一种基于数据摘要去重数据的方法,其特征在于,该方法包括:
摘要计算步骤,对要去重的数据进行摘要计算得到数据摘要;
去重步骤,基于数据摘要在内存数据库和列存数据库的查找结果完成数据的去重。
2.根据权利要求1所述的方法,其特征在于,基于数据摘要在内存数据库和列存数据库的查找结果完成数据的去重的操作为:判断数据摘要在内存数据库中是否存在,如果存在,则表明该数据摘要对应的数据已经在内存数据库中存在,则进行下一数据的去重处理,如果不存在,则判断所述数据摘要在列存数据库中是否存在,如果存在,将当前数据摘要存入内存数据库,如果不存在,则将当前数据摘要存入列存数据库与内存数据库中。
3.根据权利要求2所述的方法,其特征在于,在摘要计算步骤之前还有预处理步骤,获取将要去重处理的海量数据,将所述海量数据处理成以行为基本处理单元的多个数据文件,所述数据文件的第一行为字段名,使用第一符号分割字段,使用第二符号分割行,其中所述海量数据由多个数据表组成。
4.根据权利要求3所述的方法,其特征在于,在摘要计算步骤之前预处理步骤之后还具有生成步骤,将要参与进行去重的表和字段写入配置文件中,以表名为字典键值,使用第三标识符分割去重字段为字典值,加载去重字段配置文件,以Map<String1,List<String2>>结构存储,解析所述数据文件,以Map<String3,String4>的结构,将数据文件的第一行标题列的字段名作为key,每一行数据的列数据作为value,存储到缓存中。
5.根据权利要求4所述的方法,其特征在于,所述对要去重的数据进行摘要计算得到数据摘要的操作为:判断表是否需要去重,如果是,将所需要进行去重的字段值取出拼接,然后使用摘要算法计算拼接后的字段值的摘要值。
6.一种基于数据摘要去重数据的装置,其特征在于,该装置包括:
摘要计算单元,用于对要去重的数据进...
【专利技术属性】
技术研发人员:陈牛鹏,张燕晨,刘松润,齐战胜,吴朝晖,陈涛涛,
申请(专利权)人:厦门市美亚柏科信息股份有限公司,
类型:发明
国别省市:福建;35
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。