一种数据去重方法、装置、设备及存储介质制造方法及图纸

技术编号：24455727 阅读：44 留言：0更新日期：2020-06-10 15:29

本发明专利技术实施例公开了一种数据去重方法、装置、设备及存储介质。该方法包括：获取待处理文件中的待处理数据，并计算所述待处理数据的第一哈希值和第一MD5值；根据所述第一哈希值，确定已存储的检索数据中进行数据比对的目标哈希分区，其中，所述检索数据包括至少一个哈希分区，每一个哈希分区包括至少一个MD5值；确定所述目标哈希分区的至少一个MD5值中是否存在所述第一MD5值；如果存在，则确定所述待处理数据为重复数据，并基于所述待处理数据对文档数据库中与所述第一MD5值对应的存储数据进行更新。本发明专利技术实施例通过计算哈希值和MD5值，解决了没有主关键字情况下的数据去重问题，缩短了数据去重的时间，进而提高了对文件中的数据采集的效率。

A data De duplication method, device, equipment and storage medium

全部详细技术资料下载

【技术实现步骤摘要】
一种数据去重方法、装置、设备及存储介质
本专利技术实施例涉及数据库
，尤其涉及一种数据去重方法、装置、设备及存储介质。
技术介绍
在进行数据汇总的过程中，通常会通过主关键字的方式对数据文件进行去重处理，避免数据库中存在大量的重复数据，导致存储资源的浪费。具体的，主关键字可以用于唯一的标识表中的数据记录，主关键字又称为主键，可以由一个字段或多个字段组成。但是，数据文件的提供方提供的数据文件通常没有主键，并且经常会出现数据文件被重复性提供的情况。也有人提出可以通过临时库方式或全表对比的方式进行数据去重。其中，临时库方式是将文件数据统计采集到临时的数据库中，通过SQL(StructuredQueryLanguage，结构化查询语言)脚本进行数据去重，再将去重后得到的数据文件保存在数据库中。全表对比是在每次得到新的文件数据时，将该文件数据和数据库中的所有数据进行对比去重。基于上述现有的技术方案，临时库的方法会对已经去重过的文件数据重复进行去重处理，维护成本较大。而全表对比的方法在数据库数据量较大的情况下，数据去

【技术保护点】
1.一种数据去重方法，其特征在于，包括：/n获取待处理文件中的待处理数据，并计算所述待处理数据的第一哈希值和第一MD5值；/n根据所述第一哈希值，确定已存储的检索数据中进行数据比对的目标哈希分区，其中，所述检索数据包括至少一个哈希分区，每一个哈希分区包括至少一个MD5值；/n确定所述目标哈希分区的至少一个MD5值中是否存在所述第一MD5值；/n如果存在，则确定所述待处理数据为重复数据，并基于所述待处理数据对文档数据库中与所述第一MD5值对应的存储数据进行更新。/n

【技术特征摘要】
1.一种数据去重方法，其特征在于，包括：
获取待处理文件中的待处理数据，并计算所述待处理数据的第一哈希值和第一MD5值；
根据所述第一哈希值，确定已存储的检索数据中进行数据比对的目标哈希分区，其中，所述检索数据包括至少一个哈希分区，每一个哈希分区包括至少一个MD5值；
确定所述目标哈希分区的至少一个MD5值中是否存在所述第一MD5值；
如果存在，则确定所述待处理数据为重复数据，并基于所述待处理数据对文档数据库中与所述第一MD5值对应的存储数据进行更新。

2.根据权利要求1所述的方法，其特征在于，还包括：
获取文档数据库中已存储的至少一个存储数据，并计算所述存储数据的第二哈希值和第二MD5值；
根据缓存数据库中的哈希分区，将所述第二MD5值存储至与所述第二MD5值对应的第二哈希值所属的哈希分区中，生成检索数据。

3.根据权利要求1所述的方法，其特征在于，所述检索数据还包括所述各存储数据对应的主关键字数据，相应的，在获取待处理文件中的待处理数据之后，还包括：
确定所述待处理数据中是否存在预设主关键字数据；
如果存在，则基于所述预设主关键字数据对所述待处理数据进行重复性判断。

4.根据权利要求3所述的方法，其特征在于，所述基于所述预设主关键字数据对所述待处理数据进行重复性判断，包括：
将所述待处理数据的预设主关键字数据与所述检索数据中的主关键字数据进行比对；
当所述预设主关键字数据与所述检索数据中的任一主关键字数据相同时，确定所述待处理数据为重复数据，并基于所述待处理数据对文档数据库中与所述预设主关键字数据对应的存储数据进行更新。

5.根据权利要求1或4所述的方法，其特征在于，所述方法还包括：
如果所述目标哈希分区的至少一个MD5...

【专利技术属性】
技术研发人员：李猛，
申请(专利权)人：软通动力信息技术有限公司，
类型：发明
国别省市：天津;12

全部详细技术资料下载我是这个专利的主人