当前位置: 首页 > 专利查询>潘倩雯专利>正文

基于大数据的信息数据存储整合系统及方法技术方案

技术编号:26762921 阅读:26 留言:0更新日期:2020-12-18 23:18
本发明专利技术公开了一种基于大数据的信息数据存储整合系统及方法,所述整合系统包括文档信息获取模块、文档选取模块和拆分合并处理模块,所述文档信息获取模块用于获取上一个周期内待处理文件夹中各个待合并文档的文档信息,所述文档信息包括文档名称和最后修改时间,所述文档选取模块从待合并文档中选出疑似相近文档,再从疑似相近文档中筛选出相近文档,所述拆分合并处理模块对相近文档进行拆分合并处理。

【技术实现步骤摘要】
基于大数据的信息数据存储整合系统及方法
本专利技术涉及大数据
,具体为一种基于大数据的信息数据存储整合系统及方法。
技术介绍
随着计算机领域的快速发展,出现了电子文档。电子文档是指人们在社会活动中形成的,以计算机盘片、固态硬盘、磁盘和光盘等化学磁性物理材料为载体的文字、图片材料。依赖计算机系统存取并可在通信网络上传输。由于电子文档的易保存性和易复制性,电子文档也逐渐代替了传统的纸质文档。在工作开展中,会产生大量的电子文档,如果不及时整理这些电子文档,会占用计算机的存储空间,导致存储空间的浪费。目前主要通过人工操作整理文档,但是人工操作十分麻烦,费时费力,而且还容易在整理的时候出错误,无法提高工作效率。
技术实现思路
本专利技术的目的在于提供一种基于大数据的信息数据存储整合系统及方法,以解决上述
技术介绍
中提出的问题。为了解决上述技术问题,本专利技术提供如下技术方案:一种基于大数据的信息数据存储整合系统,所述整合系统包括文档信息获取模块、文档选取模块和拆分合并处理模块,所述文档信息获取模块用于获取上一个周期本文档来自技高网...

【技术保护点】
1.一种基于大数据的信息数据存储整合系统,其特征在于,所述整合系统包括文档信息获取模块、文档选取模块和拆分合并处理模块,所述文档信息获取模块用于获取上一个周期内待处理文件夹中各个待合并文档的文档信息,所述文档信息包括文档名称和最后修改时间,所述文档选取模块从待合并文档中选出疑似相近文档,再从疑似相近文档中筛选出相近文档,所述拆分合并处理模块对相近文档进行拆分合并处理。/n

【技术特征摘要】
1.一种基于大数据的信息数据存储整合系统,其特征在于,所述整合系统包括文档信息获取模块、文档选取模块和拆分合并处理模块,所述文档信息获取模块用于获取上一个周期内待处理文件夹中各个待合并文档的文档信息,所述文档信息包括文档名称和最后修改时间,所述文档选取模块从待合并文档中选出疑似相近文档,再从疑似相近文档中筛选出相近文档,所述拆分合并处理模块对相近文档进行拆分合并处理。


2.根据权利要求1所述的一种基于大数据的信息数据存储整合系统,其特征在于:所述文档选取模块包括疑似相近文档选取模块和相近文档选取模块,所述疑似相近文档选取模块包括第一排序获取模块、名称相似度比较模块和相关文档数目比较模块,所述第一排序获取模块用于获取各个待合并文档的文档名称的名称长度,将各个文档名称按照名称长度从短到长的顺序依次排序,并设该排序为第一排序,选取第一排序中第一个文档名称作为对比文档名称,对比文档名称所对应的文档为对比文档,所述名称相似度比较模块比较对比文档名称与第一排序中其他文档名称的相似度,如果存在某个其他文档名称与对比文档名称的名称相似度大于等于名称相似度阈值,那么该其他文档名称所对应的文档为对比文档的相关文档,所述相关文档数目比较模块在某对比文档的相关文档的文档数目与所有待合并文档的文档数目之比大于等于第一比值阈值,那么对比文档和该对比文档的相关文档均为疑似相近文档,在某对比文档的疑似相关文档的文档数目与所有待合并文档的文档数目之比小于第一比值阈值,按照第一排序的顺序选取下一个文档的名称作为对比文档名称继续进行筛选出疑似相近文档;所述相近文档选取模块包括文档名称选取模块、候选文档名称提取模块、目标文档名称判断模块和相近文档判断模块,所述文档名称选取模块从各个疑似相近文档的文档名称任意选取三个名称长度不一样的文档名称分别为第一文档名称、第二文档名称和第三文档名称,所述候选文档名称提取模块从第一文档名称和第二文档名称中提取候选文档名称,其中,候选文档名称为第一文档名称和第二文档名称中的连续相同的最大部分,所述目标文档名称判断模块在候选文档名称长度与第一文档名称长度之比大于等于第二比值阈值,判断该候选文档名称为目标文档名称,所述相近文档判断模块在某个疑似相近文档的文档名称中包含目标文档名称,判断该疑似相近文档为目标文档名称的相近文档。


3.根据权利要求2所述的一种基于大数据的信息数据存储整合系统,其特征在于:所述拆分合并处理模块包括拆分模块和合并处理模块,所述拆分模块包括拆分标准选取模块、拆分标记设置模块、拆分标记比较模块、拆分位置确定模块和拆分执行模块,所述拆分标准选取模块用于将某个目标文档名称的各个相近文档的最后修改时间按照从早到晚顺序进行排序,选取排序第一的文档为第一文档,排序第二的文档为第二文档,排序倒数第一的文档为第三文档,排序倒数第二的文档为第三文档,所述拆分标记设置模块分别比较第一文档与第二文档、第三文档与第四文档、第二文档与第三文档的文档内容,并据此在第一文档中、第三文档、第二文档中坟别设置第一拆分标记、第二拆分标记和第三拆分标记,所述拆分标记比较模块比较第一拆分标记、第二拆分标记和第三拆分标记在第一文档中、第三文档、第二文档中的设置,所述拆分位置确定模块根据比较结果对第一拆分标记在第一文档中的位置进行调整,所述拆分执行模块用于对除第三文档以外的每篇相近文档进行拆分成多个分文档;所述合并处理模块包括分文档排序模块、分文档比较模块和分文档存储模块,所述分文档排序模块将各个相近文档的属于同一个部分的分文档按照最后修改时间从早到晚顺序进行排序,所述分文档比较模块针对分文档排序模块得到的排序结果,将排在后面的分文档依次与前面相应的分文档进行比较,如果排在后面的分文档与前面的分文档内容完全相同,删除该排在后面的分文档,如果排在后面的分文档与前面的分文档内容不相同,在该排在后面的分文档打上最后修改时间戳,所述分文档存储模块创建多个分文档文件夹,将删除后剩余的属于相近文档的同一个部分的分文档存入同一个分文档文件夹,将所有的分文档文件夹和第三文档存入已合并文件夹。


4.根据权利要求3所述的一种基于大数据的信息数据存储整合系统,其特征在于:所述拆分标记设置模块包括比较文档设置模块和段落比较模块,所述比较文档设置模块用于将第一文档与第二文档、第三文档与第四文档、第二文档与第三文档作为待比较文档组,并在待比较文档组中,设置一个文档为第一待比较文档、另一个为第二待比较文档,所述段落比较模块获取第一待比较文档和第二待比较文档中段落文字,在第一待比较文档和第二待比较文档中同时存在两个段落的开头文字内容相同,并且位于后面的段落开头前的空白间隔行数大于等于行数阈值时,在位于后面的段落开头前设置拆分标记。


5.一种基于大数据的信息数据存储整合方法,其特征在于:所述存储整合方法包括一下步骤:
获取上一个周期内待处理文件夹中各个待合并文档的文档信息,所述文档信息包括文档名称和最后修改时间,
从待合并文档中选出疑似相近文档,再从疑似相近文档中筛选出相近文档,对相近文档进行拆分合并处理。


6.根据权利要求5所述的一种基...

【专利技术属性】
技术研发人员:潘倩雯
申请(专利权)人:潘倩雯
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1