【技术实现步骤摘要】
一种docx文档业务处理、数据利用系统及方法
[0001]本专利技术涉及计算机信息处理
,具体是一种文本文件处理技术,docx 文件数据写入、提取与利用方法。
技术介绍
[0002]传统的文件业务处理方式是在docx文档中,编辑好文字后下载打印,签字签章后利用,再将纸质文件数据人工输入系统。无法直接利用docx文档中的数据,这样导致大大降低工作效率和增加数据错误率,使得整个业务流程复杂冗长。
[0003]中国专利技术专利申请CN110083843A,一种CAD图纸翻译方法披露通过Python 解析对象将CAD文件上的文字内容提取出来进行人工或机器翻译,再反填录入 CAD文件中。此方法有效的解决了翻译人员对CAD的学习成本问题,该申请只针对CAD一种文件类型做了解析处理与利用,未对其他文件类型做出相应解决,且解析数据最后是反填回CAD文件内,没有做更多的有利应用。
[0004]中国专利技术专利CN107797978A,用于手写装置的文档中的输入区域的方法和系统。服务器生成表单标识符以识别文档的页面或输入区 ...
【技术保护点】
【技术特征摘要】
1.一种文档业务处理及数据利用系统,其特征在于,包括:文件解析单元、映射规则配置单元、数据录入单元、自动化工具selenlum单元,文件解析单元对上传的docx文档空白模版、解析模版进行解析,对应空白模版在解析模板中增加读取位置示例数据,识别差异化字段、标识映射编码;映射规则配置单元利用映射编码,配置与空白模板中数据待填充地址的映射关系,从解析模板中选中需要利用的字段,并标识唯一编码;数据录入单元通过标识的唯一编码从解析模板的指定地址提取出需要的结构化数据,将带有映射关系的结构化数据传送至selenium单元,Selenium单元利用已配置的数据待填充地址,调用浏览器自动打开数据使用地址,通过配置的映射关系,数据自动录入表单输入框生成电子文档,selenium单元将完成的电子文档上传至对应路径。2.根据权利要求1所述的系统,其特征在于,数据录入单元利用在线编辑,自动唤起本地word文档编辑单元,将文档空白模版中需要填写的数据录入并保存刷新,将数据传回文件解析单元,对完成文件进行解析,根据配置的映射关系填写至空白模板的相应位置,以结构化数据形式进行前端存储。3.根据权利要求1所述的系统,其特征在于,通过自动化配置文件生成脚本对空白模板与对应的填写了任意内容的解析模板进行处理,自动获得配置文件,对配置文件进行效验。4.根据权利要求3所述的系统,其特征在于,一个配置文件中包含若干行配置信息,每一行配置信息包含:提取位置,提取方式,存储标签三个字段,通过上述三个字段配合配置信息实现对任意word文档的信息提取,提取方式包括:提取位置标示中两文档不同信息的diff模式、提取位置标示中的全部信息的full模式、从位置标示中两个文档中第一个不同的字符开始提取的ldiff模式、提取位置标示中复选框中信息的cbox模式、提取位置标示中当前行及以下整行内容的lines模式。5.根据权利要求1
‑
4其中之一所述的系统,其特征在于,根据解析文档标识的映射编码、匹配内容的地址标识ID号,根据提取的对象是文字、表格、复选框设置的不同提取方式从解析模板中相应位置提取固定长度或不固定长度的内容存入数组。6.一种文档业务处理及数据利用方法,其特征在于,包括:文件解析单元对上传的docx文档空白模版、解析模版进行解析,对应空白模版在解析模板中增加读取位置示例数据,识别差异化字段、标识映射编码;映射规则配置单元利用映射编码,配置与空白模板中数据待填充地址的映射关系,从解析模板中选中需要利用的字段,并标识唯一编码;数据录入单元通过标识的唯一编码从解析模板的指定地址提取出需要的结构化数据,将带有映射关系的...
【专利技术属性】
技术研发人员:刘显茂,刘科,徐强,申发海,
申请(专利权)人:重庆傲雄在线信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。