一种设备规程文档格式转换的方法及系统技术方案

技术编号:28129149 阅读:21 留言:0更新日期:2021-04-19 11:48
本发明专利技术涉及一种设备规程文档格式转换的方法和系统,所述的方法包括:S1:读取至少一个设备规程文档的步骤;S2:对读取到的设备规程文档进行解析的步骤,S3:过滤无效标记数据的步骤,S4:对流式文档内存模型数据进行训练的步骤,S5:JSP文件模型生成的步骤,S6:JSP文件模块写出的步骤。模块写出的步骤。模块写出的步骤。

【技术实现步骤摘要】
一种设备规程文档格式转换的方法及系统


[0001]本专利技术属于文档转换
,具体涉及一种设备规程文档格式转换的方法及系统。

技术介绍

[0002]设备规程文档是电厂操作工人准确操作设备的相关要求和程序的一类文档。然而由于各种设备的数据结构各异,操作设备的要求必然也会相差各异,编制的操作设备规程文档也不一样,将电厂中成千上万种设备规程文档转换为信息系统的中每一类设备规程的录入页面,成为提高信息系统开发效率的一大难题。
[0003]现有技术中的word文档转换为html页面时存在丢失单元格框线、字符缩放功能失效、绝对行高变为最小行高以及文档中存在图片时文字错行等问题,根本无法在生成后的html页面基础上转换为jsp录入页面,常用的开源工具也仅是用来处理文档中的内容,缺少将设备规程文档(word)转换为jsp录入页面的工具,只能依靠系统开发人员参照word文档设计每一个jsp录入页面,效率非常低下。此为现有技术的不足之处。
[0004]有鉴于此,本专利技术提供一种设备规程文档格式转换的方法及系统,以解决现有技术中存在的上述缺陷,是非常有必要的。

技术实现思路

[0005]本专利技术的目的在于,针对上述现有技术存在的缺陷,提供设计一种设备规程文档格式转换的方法及系统,以解决上述技术问题。
[0006]为实现上述目的,本专利技术给出以下技术方案:
[0007]一种设备规程文档格式转换的方法,包括以下步骤:
[0008]S1:读取至少一个设备规程文档的步骤;
[0009]S2:对读取到的设备规程文档进行解析的步骤,包括:
[0010]获取文档数据中的表格、文本、图片、公式、特殊字符,并生成原始标记数据,并将文档数据中的图片分类进行存储到预先设置好的第一文件夹;
[0011]S3:过滤无效标记数据的步骤,包括:
[0012]原始标记数据进行过滤,将无效的标记数据滤除,生成流式文档内存模型数据;
[0013]S4:对流式文档内存模型数据进行训练的步骤,包括:
[0014]将流式文档内存模型数据输入到预先训练好的规则引擎模型进行训练,对每个文档进行识别分析,获取每个元素的类别以及在源文档中的位置信息,记录分析后的位置以及类别参数,并进行数据转换;
[0015]S5:JSP文件模型生成的步骤,包括:
[0016]根据规则引擎模型输出的识别结果,生成每一个源文件对应的JSP文件模型;
[0017]S6:JSP文件模块写出的步骤,包括:
[0018]将JSP文件模型写出至磁盘,生成标准的JSP录入页面、样式文件以及脚本文件,给
予转换成功或者转换异常的内容提示信息。
[0019]作为优选,所述步骤S1中,
[0020]判断是否检测到指定格式的文件;
[0021]判断读取的文件是否超过默认文件容量大小,如果超过默认文件容量,则通过ZI P压缩对文档进行压缩处理。避免文件读取错误以及容量过大无法上传。
[0022]作为优选,所述步骤S3中,
[0023]以文档为单位,遍历所述文档树结构;
[0024]以页为单位,抽取所述流式内存对象中的数据构建流式文档内存模型数据;
[0025]按照预先设置的路径保存文档图片。快速准确将无效标记数据进行滤除。
[0026]作为优选,所述步骤S4中,规则引擎模型,是预先将多种包含图片、表格、公式、特殊字符的设备规程文档文档转换为JSP文件,进行训练获得的。
[0027]作为优选,所述步骤S6中,提示信息中包含:转换异常信息在源文档中的位置,转换后在JSP页面中的位置。
[0028]本专利技术还提供一种设备规程文档格式转换的系统,包括:
[0029]文档上传模块,将至少一个设备规程文档数据上传到应用服务器;
[0030]文档解析模块,该模块中,对读取到的设备规程文档进行解析,获取文档数据中的表格、文本、图片、公式、特殊字符,并生成原始标记数据,并将文档数据中的图片分类进行存储到预先设置好的第一文件夹;
[0031]数据过滤模块,该模块中,对原始标记数据进行过滤,将无效的标记数据滤除,生成流式文档内存模型数据;
[0032]数据转换模块,该模块中,对流式文档内存模型数据进行训练,将流式文档内存模型数据输入到预先训练好的规则引擎模型进行训练,对每个文档进行识别分析,获取每个元素的类别以及在源文档中的位置信息,记录分析后的位置以及类别参数,并进行数据转换;
[0033]文件生成模块,该模块中,根据规则引擎模型输出的识别结果,生成每一个源文件对应的JSP文件模型;
[0034]信息显示模块,该模块中,将JSP文件模型写出至磁盘,生成标准的JSP录入页面、样式文件以及脚本文件,给予转换成功或者转换异常的内容提示信息。
[0035]作为优选,所述文档上传模块中,
[0036]判断是否检测到指定格式的文件;
[0037]判断读取的文件是否超过默认文件容量大小,如果超过默认文件容量,则通过ZIP压缩对文档进行压缩处理。避免文件读取错误以及容量过大无法上传。
[0038]作为优选,所述数据过滤模块中,
[0039]以文档为单位,遍历所述文档树结构;
[0040]以页为单位,抽取所述流式内存对象中的数据构建流式文档内存模型数据;
[0041]按照预先设置的路径保存文档图片。快速准确将无效标记数据进行滤除。
[0042]作为优选,所述数据转换模块中,规则引擎模型,是预先将多种包含图片、表格、公式、特殊字符的设备规程文档文档转换为JSP文件,进行训练获得的。
[0043]作为优选,所述信息显示模块中,提示信息中包含:转换异常信息在源文档中的位
置,转换后在JSP页面中的位置。
[0044]本申请中,所述的文档为Microsoft Office Word文档。
[0045]本专利技术的有益效果在于,解决了普通的word文档转换为html页面时存在的丢失单元格框线、字符缩放功能失效、绝对行高变为最小行高以及文档中存在图片时文字错行等问题;基于规则引擎模型,将每一个文档对应的内存模型数据进行识别、分析,获取每一个元素的类别以及在源文档中的位置信息、样式数据,记录分析后的位置及类别参数,根据机器训练的模型,将数据准确转换为JSP文件模型,提高文档转换准确率;将开发人员从繁琐反复的复制粘贴和不停地绘制表格的工作中解放出来,使其专注于规则模型训练和JSP页面校验工作,提高开发效率,节省开发成本。
[0046]此外,本专利技术设计原理可靠,结构简单,具有非常广泛的应用前景。
[0047]由此可见,本专利技术与现有技术相比,具有突出的实质性特点和显著地进步,其实施的有益效果也是显而易见的。
附图说明
[0048]图1是本专利技术提供的一种设备规程文档格式转换的方法的流程图。
[0049]图2是本专利技术提供的一种设备规本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种设备规程文档格式转换的方法,其特征在于,包括以下步骤:S1:读取至少一个设备规程文档的步骤;S2:对读取到的设备规程文档进行解析的步骤,包括:获取文档数据中的表格、文本、图片、公式、特殊字符,并生成原始标记数据,并将文档数据中的图片分类进行存储到预先设置好的第一文件夹;S3:过滤无效标记数据的步骤,包括:原始标记数据进行过滤,将无效的标记数据滤除,生成流式文档内存模型数据;S4:对流式文档内存模型数据进行训练的步骤,包括:将流式文档内存模型数据输入到预先训练好的规则引擎模型进行训练,对每个文档进行识别分析,获取每个元素的类别以及在源文档中的位置信息,记录分析后的位置以及类别参数,并进行数据转换;S5:JSP文件模型生成的步骤,包括:根据规则引擎模型输出的识别结果,生成每一个源文件对应的JSP文件模型;S6:JSP文件模块写出的步骤,包括:将JSP文件模型写出至磁盘,生成标准的JSP录入页面、样式文件以及脚本文件,给予转换成功或者转换异常的内容提示信息。2.根据权利要求1所述的一种设备规程文档格式转换的方法,其特征在于,所述步骤S1中,判断是否检测到指定格式的文件;判断读取的文件是否超过默认文件容量大小,如果超过默认文件容量,则通过ZIP压缩对文档进行压缩处理。3.根据权利要求2所述的一种设备规程文档格式转换的方法,其特征在于,所述步骤S3中,以文档为单位,遍历所述文档树结构;以页为单位,抽取所述流式内存对象中的数据构建流式文档内存模型数据;按照预先设置的路径保存文档图片。4.根据权利要求3所述的一种设备规程文档格式转换的方法,其特征在于,所述步骤S4中,规则引擎模型,是预先将多种包含图片、表格、公式、特殊字符的设备规程文档文档转换为JSP文件,进行训练获得的。5.根据权利要求4所述的一种设备规程文档格式转换的方法,其特征在于,所述步骤S6中,提示信息中包含:转换异常信息在源文档中的位置,转换后在JSP页面中的位置。6.一种设备规程...

【专利技术属性】
技术研发人员:张天雷王立峰任成宾郭英端马晶董斌陶明峰赵金栋潘爱兵孟宪鹏王尚斌王圣皎邓志龙纪晓龙崔文涛
申请(专利权)人:山东鲁能软件技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1