一种基于段落小文件存储的文档解耦与合成系统技术方案

技术编号:36744995 阅读:9 留言:0更新日期:2023-03-04 10:26
本发明专利技术公开了一种基于段落小文件存储的文档解耦与合成系统,包括:数据文档解析与存储模块,用于完整文档存储并对文档进行解析;相关性文档获取模块,根据关键字获取相关性文档;段落小文件存储模块,对拆分后的文件进行传输校验、存储与管理;文档批量拆解及合并模块,基于段落列表树结构标题实现文件批量拆解及合并;合并资源池模块,选择段落添加到资源池;资源池内容合成与下载模块,用于资源池内容的合成与下载以及新文件流生成。本发明专利技术通过段落小文件存储、基于关键字的相关性文档查询,结合大数据搜索引擎自动筛选出符合搜索内容的相关性段落,基于所选段落的内容实现文档内容的拆解、合并与存储,供用户核实筛选后进行相应处理。行相应处理。行相应处理。

【技术实现步骤摘要】
一种基于段落小文件存储的文档解耦与合成系统


[0001]本专利技术属于办公自动化
,具体涉及一种基于段落小文件存储的文档解耦与合成系统。

技术介绍

[0002]随着计算机技术的日新月异,Word文档的普及大大提高了办公效率,一些在纸质上操作的弊端,随着电子化文档应用,办公效率得到大大的提高。在日常的工作中,比如参与招投标会议,有大量的电子文档产生。目前主要通过人工操作整理文档,但是人工操作十分麻烦,费时费力,而且还容易在整理的时候出错误,无法提高工作效率。
[0003]在日常参与招投标书的文件整理中,大量的文档、以及文档内容之间的相关性并没有直接联系起来,对用户查找有价值的文档造成很大的不便,每个用户都不得不下载大量文档,逐个浏览,自行删除重复的和相似性较大的文档。
[0004]因此,亟需一种基于文档内容解耦并合并新文件的系统。

技术实现思路

[0005]本专利技术所要解决的技术问题是针对上述现有技术的不足,提供一种基于段落小文件存储的文档解耦与合成系统,通过段落小文件存储目录树管理、基于文件关键字的相关性文档查询,结合大数据搜索引擎自动从海量文档中筛选出符合搜索内容的相关性段落,基于所选段落的内容,可指定作为第几层级标题合成在文档中,同时实现文档图片、视频、文本内容的拆解、合并与存储,供用户核实筛选后进行相应处理。
[0006]为实现上述技术目的,本专利技术采取的技术方案为:
[0007]一种基于段落小文件存储的文档解耦与合成系统,包括:
[0008]数据文档解析与存储模块,用于完整文档存储,并对文档进行解析,基于Hash计算得到MD5编码、段落编码、段落内容;
[0009]相关性文档获取模块,用于根据用户输入的关键字获取相关性文档;
[0010]段落小文件存储模块,用于对拆分后的文件进行传输校验、存储与管理;
[0011]文档批量拆解及合并模块,用于基于段落列表树结构标题实现Word文件批量拆解及合并;
[0012]合并资源池模块,用于基于段落树结构列表选择段落添加到资源池;
[0013]资源池内容合成与下载模块,用于资源池内容的合成与下载以及新Word文件流生成。
[0014]为优化上述技术方案,采取的具体措施还包括:
[0015]上述的数据文档解析与存储模块中,通过在应用服务器内搭建MongoDB数据库实现完整文档存储;使用ElasticSearch作为搜索引擎,基于Java编写程序,启动多线程将Word文件上传到MongoDB数据库,对文档进行Hash计算,解析Word文件形成文件唯一标识的MD5编码,同时对文件内容进行段落分解,将文件上传的唯一标识MD5编码与段落编码作为
键,段落内容作为值存储ElasticSearch服务中便于查找。
[0016]上述的相关性文档获取模块通过为不同的用户分配相应的操作文档的权限,并提交要合成的资源文档,具体的:
[0017](1)通过介入文档权限系统,分配用户对搜索到的文档所拥有的操作,对用户下载合成的文件分配只读、可编辑的权限;
[0018](2)通过接口获取用户所输入关键字,在ElasticSearch服务中使用搜索匹配文件名、文件内容,获取匹配的文件名MD5编码集合之后遍历返回文件的段落信息列表便于用户查找。
[0019]上述的段落小文件存储模块,基于Netty实现HTTP协议,通过HTTP协议进行文件下载;采用数据分包+md5文件校验;将拆分后的文件数据格式存储改造为protobuf序列化之后落地磁盘。
[0020]上述的段落小文件存储模块设有文件删除+垃圾箱功能单元,实现文件删除后移动到垃圾箱,以及从垃圾箱恢复文件。
[0021]上述的文档批量拆解及合并模块安装MongoDB文档存储服务单元;对筛选文件解耦时,首先判断段落小文件存储模块中是否存在解耦数据,如果存在解耦数据,通过文件MD5编码查找MongoDB服务获取文件解耦的段落列表树结构标题返回用户端选择;如果不存在解耦数据,则进行解耦操作。
[0022]上述的解耦操作过程包括:
[0023]获取Word文件,获取到文档的所有标题列表,循环遍历各级标题获取段落内容;
[0024]将段落内容转为文件流形式存储在段落小文件存储模块,并设置每个段落对应的参数,最终以树结构的存储方式构建一个文档内容资源池;
[0025]添加相应参数并返回树结构给前端页面用于用户选择段落。
[0026]上述的合并资源池模块中,基于段落树结构列表选择获取源文件的MD5编码和段落并存入资源池中。
[0027]上述的资源池内容合成与下载模块基于源文件MD5编码对现资源池文件段落进行查找,获取原文件Word中的相应段落内容,之后将文件流进行组合操作生成新Word文件流,然后返回用户端进行下载。
[0028]本专利技术具有以下有益效果:
[0029]1、给予用户标题提取自由度,可根据选定的关键词内容,自由组合,形成多维度、多角度、多层次的目录文档。
[0030]2、文档处理容量大,在大批量处理方面优势明显:在正常内存条件下,基本可做到无限量处理,仅需耗费搜索关键词的时间即可,大大提高处理效率;同等条件下,人工手动获取文档内容再处理则需要耗费较长时间。
[0031]3、文档处理无限趋近零误差。根据现有测试结果来看,未出现误差现象,待测试样本增多可无限趋近零误差。同等条件下,人工手动处理受个体时间、精力、操作步骤等多因素影响,大概率会出现多项误差。
[0032]4、可实现用户通过关键字获取相关PPT文档。在文档中获取相应的关键字,然后根据不同的筛选标准,抓取相应所需标题文本,形成对应Word文件,满足用户所需参考多Word生成新文档的需求;支持在个人资源池中Word文件拖拽顺序调整,而后合成新文档。
[0033]5、可批量处理多Word文件,同时进行解耦合成,且在资源池支持预览,降低用户在多个文档之间的内容操作成本,提升工作效率。
[0034]6、基于搜索引擎进行文档存储,搜索引擎的文档检索主要是使用索引服务向用户提供内容查阅,实现用户获取文档效率的提升;将用户上传的文档,拆分为一个个MD5加密后的段落,然后保存到一个公共的资源池,这样对于用户提供内容检索,可以快速通过服务终端查找自己想要的文档,并且可通过搜索相关性内容的MD5值进行匹配;可以通过设定的阈值,来界定段落是否有相关性,以此来将用户输入的相关性内容都检索出来。
附图说明
[0035]图1为本专利技术基于段落小文件存储的文档解耦与合成系统设计原理图。
具体实施方式
[0036]以下结合附图对本专利技术的实施例作进一步详细描述。
[0037]如图1所示,本申请实施例的目的在于提供基于段落小文件存储的文档解耦与合成系统,基本思路是输入筛选条件,选择相关性文档,判断文档的内容规范,拆解文档段落,进行合成处理。基本实现方案包括如下模块:本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于段落小文件存储的文档解耦与合成系统,其特征在于,包括:数据文档解析与存储模块,用于完整文档存储,并对文档进行解析,基于Hash计算得到MD5编码、段落编码、段落内容;相关性文档获取模块,用于根据用户输入的关键字获取相关性文档;段落小文件存储模块,用于对拆分后的文件进行传输校验、存储与管理;文档批量拆解及合并模块,用于基于段落列表树结构标题实现Word文件批量拆解及合并;合并资源池模块,用于基于段落树结构列表选择段落添加到资源池;资源池内容合成与下载模块,用于资源池内容的合成与下载以及新Word文件流生成。2.根据权利要求1所述的一种基于段落小文件存储的文档解耦与合成系统,其特征在于,所述数据文档解析与存储模块中,通过在应用服务器内搭建MongoDB数据库实现完整文档存储;使用ElasticSearch作为搜索引擎,基于Java编写程序,启动多线程将Word文件上传到MongoDB数据库,对文档进行Hash计算,解析Word文件形成文件唯一标识的MD5编码,同时对文件内容进行段落分解,将文件上传的唯一标识MD5编码与段落编码作为键,段落内容作为值存储ElasticSearch服务中便于查找。3.根据权利要求1所述的一种基于段落小文件存储的文档解耦与合成系统,其特征在于,所述相关性文档获取模块通过为不同的用户分配相应的操作文档的权限,并提交要合成的资源文档,具体的:(1)通过介入文档权限系统,分配用户对搜索到的文档所拥有的操作,对用户下载合成的文件分配只读、可编辑的权限;(2)通过接口获取用户所输入关键字,在ElasticSearch服务中使用搜索匹配文件名、文件内容,获取匹配的文件名MD5编码集合之后遍历返回文件的段落信息列表便于用户查找。4.根据权利要求1所述的一种基于段落小文件存储的文档解耦与合成系...

【专利技术属性】
技术研发人员:刘嘉璇刘东升张阳张鹏亢俊钊智绪友
申请(专利权)人:中国电信股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1