【技术实现步骤摘要】
一种数据查重方法
本专利技术涉及大数据查重领域,具体涉及一种利用DBCursor光标和hashMap进行海量数据查重的方法。
技术介绍
随着大数据技术的发展以及互联网的推广,数据增长迅速,因此如何有效地利用有限的存储空间来对这些数据进行存储成为一个亟待解决的问题。众所周知,在海量数据中有大量的数据是相同或相似的,大量的重复数据会占据数据存储空间。如今各种数据去重技术在解决数据存储过程中重复数据的处理中发展迅猛,然而这些数据去重技术或多或少都会面临效率和准确率的问题。传统的数据去重技术通常都包括三个部分:分块、哈希计算、和重复数据去除。若仅采用基于分块的去重方案,它总是机械的执行已有的去重过程而不考虑是否真实存在相似的重复文件,这样的方式非常低效且耗费巨大,同时在去重过程中会产生大量的元数据,这些元数据的管理和存储也很复杂,会很大程度上限制现有存储系统的可扩展性,特别是在云存储技术的情况下。由此可知,现有的去重技术存在很大的问题,有很多可以改进的空间。
技术实现思路
有鉴于此,本专利技术提供一种利用DBCursor光标和hashMap来进行海量数据查重的方法,能够兼顾速 ...
【技术保护点】
1.一种对数据进行查重的方法,其特征在于:采用DBCursor光标读取数据,使用.next()按顺序读取数据库中数据,读取结束后以close()关闭连接;分批次遍历资源数据列表,使用simHash算法,将资源数据库中的文本计算为simHash指纹签名,存储成String类型,并将指纹签名分成n个片段,其中n为自然数;用上述得到的simHash签名分成的片段作为key,对应的sinHash+堆号作为value值;利用hashMap的键值执行目标文本的查重。
【技术特征摘要】
1.一种对数据进行查重的方法,其特征在于:采用DBCursor光标读取数据,使用.next()按顺序读取数据库中数据,读取结束后以close()关闭连接;分批次遍历资源数据列表,使用simHash算法,将资源数据库中的文本计算为simHash指纹签名,存储成String类型,并将指纹签名分成n个片段,其中n为自然数;用上述得到的simHash签名分成的片段作为key,对应的sinHash+堆号作为value值;利用hashMap的键值执行目标文本的查重。2.根据权利要求1所述的方法,其特征在于,计算simHash签名的方法为:对资源数据进行过滤清洗,采用分词的方法提取特征关键词;对所提取的特征关键词进行权重计算;对特征关键词进行hash降维形成0和1组成的签名;进行向量加权计算,得到每个关键词的特征向量;将上述特征向量合并相加,得到最终向量,然后降维,得到最终的simHash指纹签名。3.根据权利要求1所述的方法,其特征在于,所述的n个片段为...
【专利技术属性】
技术研发人员:鄢亚东,程国艮,
申请(专利权)人:中译语通科技股份有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。