The invention relates to a method and device for converting a DOC/DOCX stream file into an OFD format layout file. The steps of this method include: generating the stream document memory model corresponding to the stream document in DOC/DOCX format to be converted by the stream typesetting engine; transforming the generated stream document memory model into the PDF document memory model by the PDF conversion engine; transforming the generated PDF document memory model into the OFD document memory model by the document parsing typesetting technology; and utilizing the generated OFD document memory model; The memory model outputs the OFD document. The present invention can directly convert DOC/DOCX streaming document into OFD format document. The converted OFD format document not only conforms to the format document standard, but also maintains the original format style of DOC/DOCX streaming document.
【技术实现步骤摘要】
一种DOC/DOCX格式的流式文件转换成OFD格式的版式文件的方法和装置
本专利技术属于计算机领域,涉及一种文档转化方法,尤其涉及一种DOC/DOCX格式的流式文档转换成OFD格式的版式文档的方法和装置。
技术介绍
DOC/DOCX是一种流式文档格式,是目前应用最为广泛的流式文档格式,也是日常工作中大多数第一手文件的格式。许多历史遗留文件也多为DOC/DOCX格式。OFD是一种版式文档格式,全称为开放式版式文档(OpenFixed-layoutDOCument),是国家版式文档格式规范。版式文档是电子文件应用的一个重要门类,是常用的基础办公软件之一。其具有原版原式的呈现特点,即阅读显示与印刷效果一致,真实地保持了文档产生之初的文字、图表、色彩等版式信息,具有高保真的显示和打印效果。国家标准于2017年5月1日开始实施,未来电子公文、电子发票等都将以OFD格式的版式文件存在。DOC/DOCX格式流式文件转换OFD格式的版式文件的应用需求将空前扩大。目前市面上缺少公开免费的转换工具,转换技术不成熟也成为急需解决的问题。有关OFD格式转换的公开研究成果很少,并且多是由PDF版式文档格式转换成OFD格式,不能直接对应用最广泛的DOC/DOCX流式文档格式进行转换。虽然DOC以及OFD文件相关标准已经开放,但由于流式文件缺少相应坐标信息,很难直接转换为OFD版式文件。一般的流式文件转版式文件的方法,往往采用内置的规则或语法,难以灵活修改,不能适用于DOC/DOCX多变的结构,算法封闭不开放。综上,一种DOC/DOCX格式的流式文档转换成OFD格式的版式文档的方法,势 ...
【技术保护点】
1.一种DOC/DOCX格式的流式文件转换成OFD格式的版式文件的方法,其特征在于,包括以下步骤:通过流式排版引擎生成与待转换的DOC/DOCX格式的流式文档对应的流式文档内存模型;通过PDF转换引擎将生成的流式文档内存模型转换成PDF文档内存模型;采用文档解析排版技术将生成的PDF文档内存模型转换为OFD文档内存模型;利用生成的OFD文档内存模型输出OFD文档。
【技术特征摘要】
1.一种DOC/DOCX格式的流式文件转换成OFD格式的版式文件的方法,其特征在于,包括以下步骤:通过流式排版引擎生成与待转换的DOC/DOCX格式的流式文档对应的流式文档内存模型;通过PDF转换引擎将生成的流式文档内存模型转换成PDF文档内存模型;采用文档解析排版技术将生成的PDF文档内存模型转换为OFD文档内存模型;利用生成的OFD文档内存模型输出OFD文档。2.根据权利要求1所述的方法,其特征在于,所述流式排版引擎将内存中的流式文档导入到进程地址空间中,将流式文档切入到流式文档内存模型,以便于对流式文档的处理。3.根据权利要求1所述的方法,其特征在于,所述PDF转换引擎利用PDF虚拟打印机技术将流式文档内存模型转化为PDF文档内存模型。4.根据权利要求1所述的方法,其特征在于,所述PDF虚拟打印机技术包括:1)通过设备驱动程序包来对打印机的驱动进行程序编写;2)梳理打印所需要关联的接口信息,通过调用程序来实现相关的接口驱动安装;3)将设置好的接口信息对应具体的业务信息,进行链路和逻辑链接,并验证业务逻辑层面的可行性,生成可以进行打印的文档信息;4)将生成的文档信息与虚拟打印机进行连接,并进行文档推送。5.根据权利要求1所述的方法,其特征在于,所述采用文档解析排版技术将生成的PDF文档内存模型转换为OFD文档内存模型,包括:1)以对象为基本单位,利用PDF解析器对PDF文档内存模型进行解析得到其对应的抽象语法树;2)通过先序遍历抽象语法树得到PDF文档中包含的对象及相关信息,创建空白xml文件,将PDF对象及信息写入到xml文件;3)导入对应的OFD文档的标准规范配置信息,将xml文件压缩生成...
【专利技术属性】
技术研发人员:韩光,冯文化,兰静,
申请(专利权)人:中国软件与技术服务股份有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。