一种实现电子材料数字化流程自动化的方法技术

技术编号:29400547 阅读:18 留言:0更新日期:2021-07-23 22:37
本发明专利技术公开了一种实现电子材料数字化流程自动化的方法,属于电子信息化技术领域。本发明专利技术的实现电子材料数字化流程自动化的方法包括以下步骤:S1、获取电子文件;S2、判断电子文件类型;S3、电子文件预处理;S4、生成可搜索PDF文件;S5、提取结构化目录数据;S6、结构化目录数据入库;S7、电子文件特定规则重新命名;S8、电子文件上传;S9、电子文件与结构化目录数据自动连接。该发明专利技术的实现电子材料数字化流程自动化的方法能够加快电子文件数字化处理速度,同时避免人工操作失误或者操作环境异常导致数据不一致问题,具有很好的推广应用价值。

【技术实现步骤摘要】
一种实现电子材料数字化流程自动化的方法
本专利技术涉及电子信息化
,具体提供一种实现电子材料数字化流程自动化的方法。
技术介绍
纸质档案扫描、电子文件数字化是档案大数据库建设最基础的工作,其操作流程包括纸质档案扫描、电子文件预处理、电子文件分类、电子文件目录数据提取入库、档案数据挂接等步骤。整个处理过程因操作流程环节多,且各个环节步骤间涉及不同参与主体和设备环境,加大了误操作和数据不一致的出现几率,电子文件和文件目录数据也无法快速入库挂接。电子文件数字化操作流程包括电子文件预处理、电子文件分类、电子文件目录数据提取入库、电子文件上传、档案数据挂接等步骤。因操作流程环节多,且各个环节步骤间涉及不同参与主体和设备环境,容易出现系统错误或者人工失误造成数据不一致的问题,有待进一步的改进。
技术实现思路
本专利技术的技术任务是针对上述存在的问题,提供一种能够加快电子文件数字化处理速度,同时避免人工操作失误或者操作环境异常导致数据不一致问题的实现电子材料数字化流程自动化的方法。为实现上述目的,本专利技术提供了如下技术方案:一种实现电子材料数字化流程自动化的方法,包括以下步骤:S1、获取电子文件;S2、判断电子文件类型;S3、电子文件预处理;S4、生成可搜索PDF文件;S5、提取结构化目录数据;S6、结构化目录数据入库;S7、电子文件特定规则重新命名;S8、电子文件上传;S9、电子文件与结构化目录数据自动连接;S10、通过脚本编程将上述各步骤组织成工作流,自动化管理数据流在在上述各步骤间流转。作为优选,步骤S2中,判断电子文件类型是否为PDF类型,若为非PDF类型则使用PDF生成组件转化为PDF格式文件。作为优选,PDF生成组件基于脚本实现office格式文件转换成PDF文件。其中Windows环境下基于Microsoft、Office、Interop、Word类库编写PowerShell脚本实现。Linux环境下基于libreoffice基础组件编写shell脚本实现。作为优选,步骤S3中,基于itextpdf类库通过脚本实现横向排版的页面自动纠偏、空白页自动去除的预处理。作为优选,步骤S4中,可搜索PDF生成组件检查PDF文件的文本图层,若存在文本图层,使用现有的文本图层,否则使用OCR创建新的文本图层。作为优选,步骤S5中,结构化目录数据提取组件间生成的可搜索的PDF文件作为输入,读取电子文件第一页的文本内容,采用关键字正则表达式匹配的方式读取当前电子文件的文件业务类别、业务唯一标识码的信息项,形成当前电子文件的结构化形式的目录项信息。作为优选,步骤S6中,将解析出的结构化目录数据导入关系数据库,以业务唯一标识码作为数据库表主键。作为优选,步骤S7中,将解析出的结构化目录数据,以业务唯一标识码-文件业务类别的命名规则,重新命名当前电子文件。作为优选,电子文件上传组件调用云对象存储HTTP接口,上传当前电子文件的同时,传递基于当前电子文件固定的命名规则解析出的业务唯一标识码和文件业务类别两个参数。作为优选,步骤S9中,结构化目录数据的关系数据库表以业务唯一标识码作为主键,云对象存储中的文件元数据包含业务唯一标识码信息,基于业务唯一标识码自动实现电子文件和结构化目录数据间的挂接。此外该实现电子材料数字化流程自动化的方法基于电子文件数字化系统,将各个电子文件数字化处理定义为一个流程,实现自动化执行处理。电子文件数字化系统将一个请求处理过程分成几个步骤,不同资源消耗的步骤使用不同数量的线程来处理,步骤间使用事件驱动的异步通信模式。电子文件数字化系统提供常用文件读写组件、数据库读写和脚本扩展调用组件,其中“脚本扩展调用组件”可通过脚本实现对其他专业软件处理能力的调用执行,比如“可搜索PDF生成”处理步骤的底层实现既可以调用专业商业软件,也可以调用OCR云服务或者自定义实现。电子文件数字化的处理作业系统,可以将各类不同技术实现处理程序组织成工作流,让系统按照组装的流水线模式和工作流进行自动运行,实现高度智能化。与现有技术相比,本专利技术的实现电子材料数字化流程自动化的方法具有以下突出的有益效果:所述实现电子材料数字化流程自动化的方法实现电子化文件预处理、OCR文字识别、结构化目录数据自动提取及最终电子文件和目录数据入库等流水线的工作,加快电子文件数字化处理速度,同时避免人工操作失误或者操作环境异常导致数据不一致的情况,具有良好的推广应用价值。附图说明图1是本专利技术所述实现电子材料数字化流程自动化的方法的流程图。具体实施方式下面将结合附图和实施例,对本专利技术的实现电子材料数字化流程自动化的方法作进一步详细说明。实施例如图1所示,本专利技术的实现电子材料数字化流程自动化的方法,包括以下步骤:S1、获取电子文件。S2、判断电子文件类型。判断电子文件类型是否为PDF类型,若为非PDF类型则使用PDF生成组件转化为PDF格式文件。基于PowerShell脚本引入Microsoft.Office.Interop.Word等类库实现office格式文件转换生成pdf文件,Linux环境可基于libreoffice基础组件来生成PDF文件,统一转换成PDF格式文件的目的是在电子文件数字化数据查询系统中能够提供文件在线浏览功能。S3、电子文件预处理。针对横向排版的页面进行自动纠偏和去空白页的预处理。S4、生成可搜索PDF文件。“生成可搜索PDF”步骤对应的功能程序将检查PDF文件的文本图层,并且如果存在文本图层且包含的文本质量较好,将使用现有的文本图层,否者将使用OCR创建新的文本图层。S5、提取结构化目录数据。结构化目录数据提取组件间生成的可搜索的PDF文件作为输入,读取电子文件第一页的文本内容,采用关键字正则表达式匹配的方式读取当前电子文件的文件业务类别、业务唯一标识码的信息项,形成当前电子文件的结构化形式的目录项信息。S6、结构化目录数据入库。基于“结构化目录数据提取”步骤提取电子文件的目录数据,以“{业务唯一标识码}-{文件业务类别}”规则重新命名当前电子文件。在“电子文件上传”步骤中,调用云对象存储服务接口传递当前电子文件的同时,传递基于当前电子文件固定的命名规则解析出的“业务唯一标识码”和“文件业务类别”两个参数。云对象存储服务不只提供文件存储功能,同时提供电子文件元数据如文件名称、文件大小、文件存储路径、文件类别及业务编码(对应科技计划类电子材料的业务唯一标识码)等的结构化目录数据的存储。S7、电子文件特定规则重新命名。将解析出的结构化目录数据,以业务唯一标识码-文件业务类别规则,重新命名当前电子文件。S8、电子文件上传。电子文件上传组件基于电子文件固定的命名规则解析当前电子文件的业务唯一标本文档来自技高网...

【技术保护点】
1.一种实现电子材料数字化流程自动化的方法,其特征在于:包括以下步骤:/nS1、获取电子文件;/nS2、判断电子文件类型;/nS3、电子文件预处理;/nS4、生成可搜索PDF文件;/nS5、提取结构化目录数据;/nS6、结构化目录数据入库;/nS7、电子文件特定规则重新命名;/nS8、电子文件上传;/nS9、电子文件与结构化目录数据自动连接;/nS10、通过脚本编程将上述各步骤组织成工作流,自动化管理数据流在在上述各步骤间流转。/n

【技术特征摘要】
1.一种实现电子材料数字化流程自动化的方法,其特征在于:包括以下步骤:
S1、获取电子文件;
S2、判断电子文件类型;
S3、电子文件预处理;
S4、生成可搜索PDF文件;
S5、提取结构化目录数据;
S6、结构化目录数据入库;
S7、电子文件特定规则重新命名;
S8、电子文件上传;
S9、电子文件与结构化目录数据自动连接;
S10、通过脚本编程将上述各步骤组织成工作流,自动化管理数据流在在上述各步骤间流转。


2.根据权利要求1所述的实现电子材料数字化流程自动化的方法,其特征在于:步骤S2中,判断电子文件类型是否为PDF类型,若为非PDF类型则使用PDF生成组件转化为PDF格式文件。


3.根据权利要求2所述的实现电子材料数字化流程自动化的方法,其特征在于:PDF生成组件基于脚本实现office格式文件转换成PDF文件。


4.根据权利要求3所述的实现电子材料数字化流程自动化的方法,其特征在于:步骤S3中,基于itextpdf类库通过脚本实现横向排版的页面自动纠偏、空白页自动去除的预处理。


5.根据权利要求4所述的实现电子材料数字化流程自动化的方法,其特征在于:步骤S4中,可搜索PDF生成组件检查PDF文件的文本图层,若存在文本图层,使用现有的文本图层,否则使用OCR创建新的文...

【专利技术属性】
技术研发人员:石园王家乐张晓明
申请(专利权)人:浪潮云信息技术股份公司
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1