【技术实现步骤摘要】
WORD内容批量拷贝到基于S1000D标准DM的快速转换方法
[0001]本专利技术涉及一种word内容批量拷贝到基于S1000D标准DM的快速转换方法,属于数据智能处理
技术介绍
[0002]S1000D标准DM以Xml格式定义。编制S1000D标准手册时,所有DM最终都必须以Xml文件保存。IETM手册在国内普及之前,大多数用户已经有以word文档形式编写好的手册数据。
[0003]为将原有手册内容转成S1000D标准的IETM手册数据,传统方式是在编写DM的过程中将word中的内容通过复制、粘贴等方式转录成Xml格式。这种方式无法充分复用原有资料,编写效率低,准确率低。
技术实现思路
[0004]为了解决上述技术问题,本专利技术提供一种WORD内容批量拷贝到基于S1000D标准DM的快速转换方法,包括如下步骤:步骤1:文档html化:对文档全文进行html标签语言的文本化,输出html标签语言文本;步骤2:根据步骤1中所得html标签语言文本判断是否来源于word文档,若是,则进入步骤 ...
【技术保护点】
【技术特征摘要】
1.WORD内容批量拷贝到基于S1000D标准DM的快速转换方法,其特征在于:包括如下步骤:步骤1:文档html化:对文档全文进行html标签语言的文本化,输出html标签语言文本;步骤2:根据步骤1中所得html标签语言文本判断是否来源于word文档,若是,则进入步骤3,若不是,则调用普通转换操作;步骤3:核对html标签语言文本是否为已注册的word粘贴命令,若否,则把word粘贴命令注册到缓存的命令集合中,然后进入步骤4,若是,则直接进入步骤4;步骤4:判断当前光标是否定位在编辑区节点中,若否,则警告提示,若是,则进入步骤5;步骤5:获取word需要粘贴的对象,执行粘贴命令,并且初始化xslt样式模板;步骤6:启动多线程操作,对粘贴后的html标签语言文本进行裁剪、调整或者删除不必要的内容,为转换S1000D节点做准备;步骤7:若当前线程能在1秒内处理完源数据,则不弹出日志对话框,若超过1秒还没有执行完,则结束当前线程,弹出操作日志对话框;步骤8:根据xslt样式文件路径获取样式模板,若缓存中有样式模板信息,则默认样式模板信息从缓存中取,若缓存中没有样式模板信息,则把样式模板信息存入到缓存中,需要模板信息时直接从缓存中取;步骤9:通过样式模板获取Transformer转换对象,再往Transformer转换对象中设置必要参数,转换成S1000D标准DM的Xml文件。2.根据权利要求1所述的WORD内容批量拷贝到基于S1000D标准DM的快速转换方法,其特征在于:所述步骤1中通过键盘“CTRL+C/CTRL+V”触发复制/粘贴命令,将文档内容复制到剪切板中,设置文档数据格式为html格式,通过Transformer转换对象获取剪切板中html格式内容。3.根据权利要求1所述的WORD内容批量拷贝到基于S1000D标准DM的快速转换方法,其特征在于:所述步骤2中根据底层html数据中的“xmlns:w=urn:schemas
‑
microsoft
‑
com:office:WORD”信息来判断html标签语言文本是否从word文档中复制。4.根据权利要求1所述的WORD内容批量拷贝到基于S1000D标准DM的快速转换方法,其特征在于:所述步骤6的多线程操作的具体执行过程为:步骤6.1:把html标签语言文本中字符串转成Document对象进行解析,并删除html标签语言文本中的命名空间及注释内容,再把图片内容下载到本地临时文件夹,普通图片用png格式保存,VISIO格式用EMF压缩格式保存,文件命名格式为“image”+编号;步骤6.2:删除html标签语言文本中底层对应的meta多余标签内容,删除全局字体相关的样式;步骤6.3:删除原word纯文本内容样式、有序列表、无序列表样式及文本布局格式,修改语言为“zh
‑
CN”格式;步骤6.4:删除底层原word文档全文中的链接样式;步骤6.5:根据原word文档底层表格列宽,修改为用百分比表示列宽,增加处理指令,用来预处理按照S1000D标准标签表示的表格;步骤6.6:修改图片标签,把原word文档中的底层<img>标签改为<figure>,并且增加属
性“class='figcaption'”来表示图片,若没有加入此属性的,则默认作为图标;步骤6.7:根据原word文档中的底层<p>标签的属性“class='MsoNormal'”判断底层<p>标签是有序列表还是无序列表,若是有序列表,则把<p>标签转成对应的有序“<ol><li>”标签,若是无序列表,则把<p>标签转成对应的无序“<ul><li>”标签;步骤6.8:处理图注或者表注,根据原word文档中的图片或者表格标签中的“class='figcaption'”或者“class='caption'”来填充图片或者表格的标题;步骤6.9:预处理标题标签,根据原word文档全文中的底层标签,如一级标题标签
ꢀ“
<h1></h1>”转成对应的“<div class='section1'><h1><h1></div>”标签,在后期根据“class='section1'”转成对应的S1000D节点或者步骤标签;步骤6.10:删除原word文档中的底层空文本标签、span标签及样式,把“<b>、<big>、<cite>、<em>、<i>、<small>、<strong>和<u>”标签中的内容替换到外层<p>标签中,并且删除“<b>、<big>、<cite>、<e...
【专利技术属性】
技术研发人员:孙国防,蒋巍,孙浩,
申请(专利权)人:南京国睿信维软件有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。