【技术实现步骤摘要】
一种基于段落小文件存储的文档解耦与合成系统
[0001]本专利技术属于办公自动化
,具体涉及一种基于段落小文件存储的文档解耦与合成系统。
技术介绍
[0002]随着计算机技术的日新月异,Word文档的普及大大提高了办公效率,一些在纸质上操作的弊端,随着电子化文档应用,办公效率得到大大的提高。在日常的工作中,比如参与招投标会议,有大量的电子文档产生。目前主要通过人工操作整理文档,但是人工操作十分麻烦,费时费力,而且还容易在整理的时候出错误,无法提高工作效率。
[0003]在日常参与招投标书的文件整理中,大量的文档、以及文档内容之间的相关性并没有直接联系起来,对用户查找有价值的文档造成很大的不便,每个用户都不得不下载大量文档,逐个浏览,自行删除重复的和相似性较大的文档。
[0004]因此,亟需一种基于文档内容解耦并合并新文件的系统。
技术实现思路
[0005]本专利技术所要解决的技术问题是针对上述现有技术的不足,提供一种基于段落小文件存储的文档解耦与合成系统,通过段落小文件存储目录树管理、基 ...
【技术保护点】
【技术特征摘要】
1.一种基于段落小文件存储的文档解耦与合成系统,其特征在于,包括:数据文档解析与存储模块,用于完整文档存储,并对文档进行解析,基于Hash计算得到MD5编码、段落编码、段落内容;相关性文档获取模块,用于根据用户输入的关键字获取相关性文档;段落小文件存储模块,用于对拆分后的文件进行传输校验、存储与管理;文档批量拆解及合并模块,用于基于段落列表树结构标题实现Word文件批量拆解及合并;合并资源池模块,用于基于段落树结构列表选择段落添加到资源池;资源池内容合成与下载模块,用于资源池内容的合成与下载以及新Word文件流生成。2.根据权利要求1所述的一种基于段落小文件存储的文档解耦与合成系统,其特征在于,所述数据文档解析与存储模块中,通过在应用服务器内搭建MongoDB数据库实现完整文档存储;使用ElasticSearch作为搜索引擎,基于Java编写程序,启动多线程将Word文件上传到MongoDB数据库,对文档进行Hash计算,解析Word文件形成文件唯一标识的MD5编码,同时对文件内容进行段落分解,将文件上传的唯一标识MD5编码与段落编码作为键,段落内容作为值存储ElasticSearch服务中便于查找。3.根据权利要求1所述的一种基于段落小文件存储的文档解耦与合成系统,其特征在于,所述相关性文档获取模块通过为不同的用户分配相应的操作文档的权限,并提交要合成的资源文档,具体的:(1)通过介入文档权限系统,分配用户对搜索到的文档所拥有的操作,对用户下载合成的文件分配只读、可编辑的权限;(2)通过接口获取用户所输入关键字,在ElasticSearch服务中使用搜索匹配文件名、文件内容,获取匹配的文件名MD5编码集合之后遍历返回文件的段落信息列表便于用户查找。4.根据权利要求1所述的一种基于段落小文件存储的文档解耦与合成系...
【专利技术属性】
技术研发人员:刘嘉璇,刘东升,张阳,张鹏,亢俊钊,智绪友,
申请(专利权)人:中国电信股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。