【技术实现步骤摘要】
基于JAVA实现由Word文档向LaTeX文档转换的方法及系统
本专利技术涉及文档转换和数据处理领域,更具体地说,涉及一种基于JAVA实现由Word文档向LaTeX文档转换的方法。
技术介绍
TeX提供了一套功能强大并且十分灵活的排版语言,它多达900条指令,并且TeX有宏功能,用户可以不断地定义自己适用的新命令来扩展TeX系统的功能。LeslieLamport开发的LaTeX是当今世界上最流行和使用最为广泛的TeX宏集。MicrosoftOfficeWord作为Office套件的核心程序,提供了许多易于使用的文档创建工具,也是目前市场上占有量最大的文字处理器。Word专用的文件格式Word文件(.docx)成为事实上最通用的文档标准。文档转换是将Word、Pdf、Txt、Ooxml、Odf、Html等文档格式进行转化。例如专利技术人黒木纯提出的将Ooxml、Odf的文档转换为HTML格式文档的方法、AdobeAcrobatProfessional软件实现Word格式和Pdf格式的转换等。ApachePOI是一个开放源代码的Java数据库,其主要目标是访问Word ...
【技术保护点】
1.一种基于JAVA实现由Word文档向LaTeX文档转换的方法,其特征在于,包括如下步骤:S1、根据用户提交的Word源文档文件,通过JACOB组件中的Word调用程序模块打开源文档文件;S2、在打开的源文档文件中,通过JACOB组件对源文档文件中各类数据元素进行初始分析,获取并记录源文档文件中每个数据元素的数据信息;S3、根据步骤S2记录的数据信息,利用Apache POI组件和JACOB组件,提取源文档文件中的各类数据元素;S4、将步骤S3提取出的各类数据元素进行信息流处理;其中,每类数据元素分别形成与其相对应的信息流;S5、将步骤S2记录得到的数据信息与每类数据元素 ...
【技术特征摘要】
1.一种基于JAVA实现由Word文档向LaTeX文档转换的方法,其特征在于,包括如下步骤:S1、根据用户提交的Word源文档文件,通过JACOB组件中的Word调用程序模块打开源文档文件;S2、在打开的源文档文件中,通过JACOB组件对源文档文件中各类数据元素进行初始分析,获取并记录源文档文件中每个数据元素的数据信息;S3、根据步骤S2记录的数据信息,利用ApachePOI组件和JACOB组件,提取源文档文件中的各类数据元素;S4、将步骤S3提取出的各类数据元素进行信息流处理;其中,每类数据元素分别形成与其相对应的信息流;S5、将步骤S2记录得到的数据信息与每类数据元素的信息流相结合,在保证源文档文件中各数据元素位置不变的情况下,形成LaTeX目标文档的信息流;S6、将步骤S5形成的LaTeX目标文档的信息流写入到目标文件,从而将Word源文档文件转换成LaTeX文档。2.根据权利要求1所述的Word文档向LaTeX文档转换的方法,其特征在于,步骤S2中获取并记录的数据信息包括数据元素的类别,以及每个数据元素在源文档文件中的相对位置;通过JACOB组件分析的数据元素包括文本、图片、表格和公式元素。3.根据权利要求1所述的Word文档向LaTeX文档转换的方法,其特征在于,步骤S2中对源文档文件中各类数据元素进行初始分析,具体是对源文档文件中的所有数据元素的存储状态进行判断。4.根据权利要求1所述的Word文档向LaTeX文档转换的方法,其特征在于,步骤S2中通过JACOB组件中的Paragraphs、Item、Text和Table接口,记录各数据元素的类别以及相对位置。5.根据权利要求1所述的Word文档向LaTeX文档转换的方法,其特征在于,步骤S3中在源文档文件中提取各类数据元素包括:针对文本元素,通过JACOB组件中的get(“Text”)、get(“Font”)和get(“Size”)函数,提取得到源文档文件中的文本元素;所述文本元素包括文本数据内容、文本类型和文本格式;针对图片元素,使用ApachePOI组件中XWPFDocument接口,提取得到源文档文件中的图片元素;使用JAVA程序自带的FileOutputStream方法,将提取的图片元素保存为本地文件;针对表格元素,结合JACOB组件中的getTable函数和ReadTable函数,提取得到源文档中的表格元素;其中,表格的规格由JACOB组件中getTableRowsCount方法以及getTableColumns...
【专利技术属性】
技术研发人员:宋军,徐衡,朱超群,彭艳,张坤,曹威,吴雅笛,
申请(专利权)人:中国地质大学武汉,
类型:发明
国别省市:湖北,42
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。