一种基于哈希算法电子公文数据的提取和去重方法及系统技术方案

技术编号:28941738 阅读:25 留言:0更新日期:2021-06-18 21:47
本发明专利技术公开了一种基于哈希算法电子公文数据的提取和去重方法及系统,属于计算机数据库领域;本发明专利技术所应用的系统结构包括接口服务器和多个数据库服务器,所述接口服务器负责管理电子公文数据文件的存储入库,而数据库服务器用于实际存储数据;为了存储大量的数据,本发明专利技术的最优选方案是使用138个数据库服务器,当然这是对于大型数据存储系统而言的,如果使用者是小型企业,为了减少成本,也可以考虑将其中的多个服务器合并成一个,从而减少数据库服务器数量。

【技术实现步骤摘要】
一种基于哈希算法电子公文数据的提取和去重方法及系统
本专利技术公开一种基于哈希算法电子公文数据的提取和去重方法及系统,涉及计算机数据库

技术介绍
近年来,为了处理大量的公文信息,出现了大数据的概念。所谓大数据,是指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。由于数据的海量特性,人们仅仅凭一己之力很难对这些数据这些分析,但是在以云计算为代表的技术创新大幕的衬托下,这些原本很难收集和使用的数据开始容易被利用起来了,通过各行各业的不断创新,大数据逐步为人类创造更多的价值。尽管用于做电子公文信息大数据分析的计算机越来越多,性能越来越好,但是面对海量数据仍然力不从心,因此分析这些公文数据的第一步,是检测和消除其中的重复数据,通过数据去重,一方面是减少存储空间和网络带宽的占用,另一方面是减少数据分析量。行业种现有的技术当中的常见的数据提取+去重方法是通过比较整个公文数据文件的哈希值来检测重复的数据。这本文档来自技高网...

【技术保护点】
1.一种基于哈希算法电子公文数据的提取和去重方法及系统,其特征是所述的方法具体步骤包括:/nS1通过数据单元的最后一个字节对数据单元进行分类,设置对应的数据库服务器;/nS2设置结构服务器的最小数据的单元长度;/nS3接口服务器选择重复数据量最大的两种分单元方式指示相应的数据库服务器进行存储;/nS4判断电子公文数据单元是否重复,并通过数据库服务器进行存储;/nS5设置初始的分块向量,利用接口服务器准备对该数据文件机型数据分块;/nS6接口服务器从该数据文件的第MinBlockLength个字节开始向后循环扫描,获得多种数据单元切割形式;/nS7对数据单元的切割数量进行排序;/nS8将数据单元...

【技术特征摘要】
1.一种基于哈希算法电子公文数据的提取和去重方法及系统,其特征是所述的方法具体步骤包括:
S1通过数据单元的最后一个字节对数据单元进行分类,设置对应的数据库服务器;
S2设置结构服务器的最小数据的单元长度;
S3接口服务器选择重复数据量最大的两种分单元方式指示相应的数据库服务器进行存储;
S4判断电子公文数据单元是否重复,并通过数据库服务器进行存储;
S5设置初始的分块向量,利用接口服务器准备对该数据文件机型数据分块;
S6接口服务器从该数据文件的第MinBlockLength个字节开始向后循环扫描,获得多种数据单元切割形式;
S7对数据单元的切割数量进行排序;
S8将数据单元按照其结尾字节发送到相应的数据库服务器进行重复性检测;
S9接口服务器接收判断结果,通知相应数据库服务器进行存储。


2.根据权利要求1所述的方法,其特征是所述S4判断电子公文数据单元是否重复,并通过数据库服务器进行存储的具体步骤包括:
S401计算该电子公文数据文件的哈希值;
S402利用哈希值判断该数据文件是否已经存储在服务器中;
S403已存储,则该电子公文数据文件是重复文件,仅为该数据文件保留一个指针;
S413未存储,则存储该数据文件和其哈希值。


3.根据权利要求2所述的方法,其特征是所述S6接口服务器从该每个分块向量值进行文件扫面,获得多种数据单元切割形式的具体步骤包括:
S601接口服务器从该数据文件的第MinBlockLength个字节开始向后循环扫描;
S602将标记位置最为一个数据单元的结尾,对数据文分单元得到数据单元;
S603对得到的数据单元进行分类;
S604对数据文件进行S601~S603循环扫描。


4.根据权利要求3所述的方法,其特征是所述S8将数据单元按照其结尾字节发送到相应的数据库服务器进行重复性检测的具体步骤包括:
S801通过数据库服务器计算接收到的数据单元的哈希值;
S802根据哈希值判断该数据单元是否为重复数据;
S803将判断结果发送给接口服务器。


5.一种基于哈希算法电子公文数据的提取和去重系统,其特征是所述的系统具...

【专利技术属性】
技术研发人员:康宸赫
申请(专利权)人:浪潮云信息技术股份公司
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1