一种实现电子材料数字化流程自动化的方法技术

技术编号：29400547 阅读：18 留言：0更新日期：2021-07-23 22:37

本发明专利技术公开了一种实现电子材料数字化流程自动化的方法，属于电子信息化技术领域。本发明专利技术的实现电子材料数字化流程自动化的方法包括以下步骤：S1、获取电子文件；S2、判断电子文件类型；S3、电子文件预处理；S4、生成可搜索PDF文件；S5、提取结构化目录数据；S6、结构化目录数据入库；S7、电子文件特定规则重新命名；S8、电子文件上传；S9、电子文件与结构化目录数据自动连接。该发明专利技术的实现电子材料数字化流程自动化的方法能够加快电子文件数字化处理速度，同时避免人工操作失误或者操作环境异常导致数据不一致问题，具有很好的推广应用价值。

全部详细技术资料下载

【技术实现步骤摘要】
一种实现电子材料数字化流程自动化的方法
本专利技术涉及电子信息化
，具体提供一种实现电子材料数字化流程自动化的方法。
技术介绍
纸质档案扫描、电子文件数字化是档案大数据库建设最基础的工作，其操作流程包括纸质档案扫描、电子文件预处理、电子文件分类、电子文件目录数据提取入库、档案数据挂接等步骤。整个处理过程因操作流程环节多，且各个环节步骤间涉及不同参与主体和设备环境，加大了误操作和数据不一致的出现几率，电子文件和文件目录数据也无法快速入库挂接。电子文件数字化操作流程包括电子文件预处理、电子文件分类、电子文件目录数据提取入库、电子文件上传、档案数据挂接等步骤。因操作流程环节多，且各个环节步骤间涉及不同参与主体和设备环境，容易出现系统错误或者人工失误造成数据不一致的问题，有待进一步的改进。
技术实现思路
本专利技术的技术任务是针对上述存在的问题，提供一种能够加快电子文件数字化处理速度，同时避免人工操作失误或者操作环境异常导致数据不一致问题的实现电子材料数字化流程自动化的方法。为实现上述目的，本专利技术提供了如下技术方案：一种实现电子材料数字化流程自动化的方法，包括以下步骤：S1、获取电子文件；S2、判断电子文件类型；S3、电子文件预处理；S4、生成可搜索PDF文件；S5、提取结构化目录数据；S6、结构化目录数据入库；S7、电子文件特定规则重新命名；S8、电子文件上传；S9、电子文件与结构化目录数据自动连接...

【技术保护点】
1.一种实现电子材料数字化流程自动化的方法，其特征在于：包括以下步骤：/nS1、获取电子文件；/nS2、判断电子文件类型；/nS3、电子文件预处理；/nS4、生成可搜索PDF文件；/nS5、提取结构化目录数据；/nS6、结构化目录数据入库；/nS7、电子文件特定规则重新命名；/nS8、电子文件上传；/nS9、电子文件与结构化目录数据自动连接；/nS10、通过脚本编程将上述各步骤组织成工作流，自动化管理数据流在在上述各步骤间流转。/n

【技术特征摘要】
1.一种实现电子材料数字化流程自动化的方法，其特征在于：包括以下步骤：
S1、获取电子文件；
S2、判断电子文件类型；
S3、电子文件预处理；
S4、生成可搜索PDF文件；
S5、提取结构化目录数据；
S6、结构化目录数据入库；
S7、电子文件特定规则重新命名；
S8、电子文件上传；
S9、电子文件与结构化目录数据自动连接；
S10、通过脚本编程将上述各步骤组织成工作流，自动化管理数据流在在上述各步骤间流转。

2.根据权利要求1所述的实现电子材料数字化流程自动化的方法，其特征在于：步骤S2中，判断电子文件类型是否为PDF类型，若为非PDF类型则使用PDF生成组件转化为PDF格式文件。

3.根据权利要求2所述的实现电子材料数字化流程自动化的方法，其特征在于：PDF生成组件基于脚本实现office格式文件转换成PDF文件。

4.根据权利要求3所述的实现电子材料数字化流程自动化的方法，其特征在于：步骤S3中，基于itextpdf类库通过脚本实现横向排版的页面自动纠偏、空白页自动去除的预处理。

5.根据权利要求4所述的实现电子材料数字化流程自动化的方法，其特征在于：步骤S4中，可搜索PDF生成组件检查PDF文件的文本图层，若存在文本图层，使用现有的文本图层，否则使用OCR创建新的文...

【专利技术属性】
技术研发人员：石园，王家乐，张晓明，
申请(专利权)人：浪潮云信息技术股份公司，
类型：发明
国别省市：山东;37

全部详细技术资料下载我是这个专利的主人