WORD内容批量拷贝到基于S1000D标准DM的快速转换方法技术

技术编号:28215833 阅读:39 留言:0更新日期:2021-04-24 14:59
本发明专利技术涉及WORD内容批量拷贝到基于S1000D标准DM的快速转换方法,属于数据格式内容转换领域,包括以下步骤:文档html化;判断是否从word文档中复制,若是,则核对是否为注册word粘贴命令,若不是,则调用普通转换操作;判断当前光标是否定位在编辑区节点;获取粘贴命令的对象;启动多线程处理;根据各线程处理时间判定是否结束线程;获取模板信息;往Transformer转换对象中设置必要参数,转换成S1000D标准DM的Xml文件。本发明专利技术通过模板引擎能够把word中的标题、强调、上下标、有序、无序、表格、图片、图标、文本等内容自动转换成S1000D对应内容,提升编辑效率。提升编辑效率。提升编辑效率。

【技术实现步骤摘要】
WORD内容批量拷贝到基于S1000D标准DM的快速转换方法


[0001]本专利技术涉及一种word内容批量拷贝到基于S1000D标准DM的快速转换方法,属于数据智能处理


技术介绍

[0002]S1000D标准DM以Xml格式定义。编制S1000D标准手册时,所有DM最终都必须以Xml文件保存。IETM手册在国内普及之前,大多数用户已经有以word文档形式编写好的手册数据。
[0003]为将原有手册内容转成S1000D标准的IETM手册数据,传统方式是在编写DM的过程中将word中的内容通过复制、粘贴等方式转录成Xml格式。这种方式无法充分复用原有资料,编写效率低,准确率低。

技术实现思路

[0004]为了解决上述技术问题,本专利技术提供一种WORD内容批量拷贝到基于S1000D标准DM的快速转换方法,包括如下步骤:步骤1:文档html化:对文档全文进行html标签语言的文本化,输出html标签语言文本;步骤2:根据步骤1中所得html标签语言文本判断是否来源于word文档,若是,则进入步骤3,若不是,则调用普本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.WORD内容批量拷贝到基于S1000D标准DM的快速转换方法,其特征在于:包括如下步骤:步骤1:文档html化:对文档全文进行html标签语言的文本化,输出html标签语言文本;步骤2:根据步骤1中所得html标签语言文本判断是否来源于word文档,若是,则进入步骤3,若不是,则调用普通转换操作;步骤3:核对html标签语言文本是否为已注册的word粘贴命令,若否,则把word粘贴命令注册到缓存的命令集合中,然后进入步骤4,若是,则直接进入步骤4;步骤4:判断当前光标是否定位在编辑区节点中,若否,则警告提示,若是,则进入步骤5;步骤5:获取word需要粘贴的对象,执行粘贴命令,并且初始化xslt样式模板;步骤6:启动多线程操作,对粘贴后的html标签语言文本进行裁剪、调整或者删除不必要的内容,为转换S1000D节点做准备;步骤7:若当前线程能在1秒内处理完源数据,则不弹出日志对话框,若超过1秒还没有执行完,则结束当前线程,弹出操作日志对话框;步骤8:根据xslt样式文件路径获取样式模板,若缓存中有样式模板信息,则默认样式模板信息从缓存中取,若缓存中没有样式模板信息,则把样式模板信息存入到缓存中,需要模板信息时直接从缓存中取;步骤9:通过样式模板获取Transformer转换对象,再往Transformer转换对象中设置必要参数,转换成S1000D标准DM的Xml文件。2.根据权利要求1所述的WORD内容批量拷贝到基于S1000D标准DM的快速转换方法,其特征在于:所述步骤1中通过键盘“CTRL+C/CTRL+V”触发复制/粘贴命令,将文档内容复制到剪切板中,设置文档数据格式为html格式,通过Transformer转换对象获取剪切板中html格式内容。3.根据权利要求1所述的WORD内容批量拷贝到基于S1000D标准DM的快速转换方法,其特征在于:所述步骤2中根据底层html数据中的“xmlns:w=urn:schemas

microsoft

com:office:WORD”信息来判断html标签语言文本是否从word文档中复制。4.根据权利要求1所述的WORD内容批量拷贝到基于S1000D标准DM的快速转换方法,其特征在于:所述步骤6的多线程操作的具体执行过程为:步骤6.1:把html标签语言文本中字符串转成Document对象进行解析,并删除html标签语言文本中的命名空间及注释内容,再把图片内容下载到本地临时文件夹,普通图片用png格式保存,VISIO格式用EMF压缩格式保存,文件命名格式为“image”+编号;步骤6.2:删除html标签语言文本中底层对应的meta多余标签内容,删除全局字体相关的样式;步骤6.3:删除原word纯文本内容样式、有序列表、无序列表样式及文本布局格式,修改语言为“zh

CN”格式;步骤6.4:删除底层原word文档全文中的链接样式;步骤6.5:根据原word文档底层表格列宽,修改为用百分比表示列宽,增加处理指令,用来预处理按照S1000D标准标签表示的表格;步骤6.6:修改图片标签,把原word文档中的底层<img>标签改为<figure>,并且增加属
性“class='figcaption'”来表示图片,若没有加入此属性的,则默认作为图标;步骤6.7:根据原word文档中的底层<p>标签的属性“class='MsoNormal'”判断底层<p>标签是有序列表还是无序列表,若是有序列表,则把<p>标签转成对应的有序“<ol><li>”标签,若是无序列表,则把<p>标签转成对应的无序“<ul><li>”标签;步骤6.8:处理图注或者表注,根据原word文档中的图片或者表格标签中的“class='figcaption'”或者“class='caption'”来填充图片或者表格的标题;步骤6.9:预处理标题标签,根据原word文档全文中的底层标签,如一级标题标签
ꢀ“
<h1></h1>”转成对应的“<div class='section1'><h1><h1></div>”标签,在后期根据“class='section1'”转成对应的S1000D节点或者步骤标签;步骤6.10:删除原word文档中的底层空文本标签、span标签及样式,把“<b>、<big>、<cite>、<em>、<i>、<small>、<strong>和<u>”标签中的内容替换到外层<p>标签中,并且删除“<b>、<big>、<cite>、<e...

【专利技术属性】
技术研发人员:孙国防蒋巍孙浩
申请(专利权)人:南京国睿信维软件有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1