排版文件转换为XML数据的方法、装置、设备及介质制造方法及图纸

技术编号:30348243 阅读:16 留言:0更新日期:2021-10-16 16:41
本申请提供一种排版文件转换为XML数据的方法、装置、设备及介质,该方法包括:将待转换的排版文件转化为Word文件和增补资源包,并将Word文件通过Word结构化引擎,转化为初始XML文件以及资源映射文件,最后根据资源映射文件以及期刊元数据的预设位置,将增补资源包增补到初始XML文件中,生成目标XML文件。该技术方案中,电子设备通过将排版文件转化为Word文件和增补资源包,并将增补资源包增补到Word文件转化生成的初始XML文件中,从而获得目标XML文件,有效提高了排版文件信息的完整性。有效提高了排版文件信息的完整性。有效提高了排版文件信息的完整性。

【技术实现步骤摘要】
排版文件转换为XML数据的方法、装置、设备及介质


[0001]本申请涉及文档处理
,尤其涉及一种排版文件转换为可扩展标记语言(Extensible Markup Language,XML)数据的方法、装置、设备及介质。

技术介绍

[0002]排版文件格式是版面呈现效果固定的电子文档格式,排版文件的呈现与设备无关,在各种设备上阅读、打印或印刷时,其版面的呈现效果都是一致的。但由于排版文件相对而言不便于编辑,因此在存档、再次排版以及生成网刊前,还需要将排版文件转换为XML数据。
[0003]目前,将排版文件转换为XML数据主要通过将排版文件转换为Word文件,之后再将该Word文件转化为XML数据。
[0004]然而,上述方案中,在Word文件转化为XML数据时,排版文件的内容可能会发生丢失,导致信息完整性较差。

技术实现思路

[0005]本申请提供一种排版文件转换为XML数据的方法、装置、设备及介质,以解决在Word文件转化为XML数据时,排版文件的信息可能会发生丢失,导致信息完整性较差的问题。
[0006]第一方面,本申请实施例提供一种排版文件转换为XML数据的方法,包括:
[0007]将待转换的排版文件转化为Word文件和增补资源包,所述Word文件中包括至少一个图片对象,至少一个表格对象以及至少一个公式对象,所述增补资源包中包括板式信息集合以及期刊元数据,所述Word文件中的每个对象与所述板式信息集合中所述对象对应的板式信息设置相同的初始id;
[0008]将所述Word文件通过Word结构化引擎,转化为初始XML文件以及资源映射文件,所述资源映射文件包括所述初始id与生成的目标id之间的映射关系;
[0009]根据所述资源映射文件以及所述期刊元数据的预设位置,将所述增补资源包增补到所述初始XML文件中,生成目标XML文件。
[0010]在第一方面的一种可能设计中,所述将所述Word文件通过Word结构化引擎,转化为初始XML文件以及资源映射文件,包括:
[0011]通过所述Word结构化引擎,将所述Word文件中的所述初始id转化为所述目标id,生成所述初始XML文件;
[0012]获取所述初始id与所述目标id的映射关系,生成所述资源映射文件。
[0013]在第一方面的另一种可能设计中,所述根据所述资源映射文件以及所述期刊元数据的预设位置,将所述增补资源包增补到所述初始XML文件中,生成目标XML文件,包括:
[0014]根据所述资源映射文件,将所述板式信息集合增补到所述初始XML文件中;
[0015]根据所述期刊元数据的预设位置,将所述期刊元数据增补到所述初始XML文件中;
[0016]生成所述目标XML文件。
[0017]可选的,所述板式信息集合包括每个图片对象对应的版式信息,每个表格对象对应的版式信息以及每个公式对象对应的版式信息。
[0018]可选的,每个图片对象对应的板式信息包括所述图片对象的尺寸数据和图片替代图数据;
[0019]每个公式对象对应的板式信息包括所述公式对象的尺寸数据和公式替代图数据;
[0020]每个表格对象对应的板式信息包括所述表格对象的尺寸数据和表格替代图数据。
[0021]可选的,所述期刊元数据包括页码信息、章节数位物件识别号DOI、出版社信息。
[0022]可选的,替代图数据包括高清替代图数据和非高清替代图数据,所述高清替代图的像素高于第一预设像素,所述非高清替代图的像素低于第二预设像素,所述第一预设像素大于所述第二预设像素;
[0023]其中,所述替代图数据包括所述图片替代图数据,所述公式替代图数据以及所述表格替代图中的至少一个。
[0024]第二方面,本申请实施例提供一种排版文件转换为XML数据的装置,包括:
[0025]转化模块,用于将待转换的排版文件转化为Word文件和增补资源包,所述Word文件中包括至少一个图片对象,至少一个表格对象以及至少一个公式对象,所述增补资源包中包括板式信息集合以及期刊元数据,所述Word文件中的每个对象与所述板式信息集合中所述对象对应的板式信息设置相同的初始id;
[0026]所述转化模块,还用于将所述Word文件通过Word结构化引擎,转化为初始XML文件以及资源映射文件,所述资源映射文件包括所述初始id与生成的目标id之间的映射关系;
[0027]增补模块,用于根据所述资源映射文件以及所述期刊元数据的预设位置,将所述增补资源包增补到所述初始XML文件中,生成目标XML文件。
[0028]在第二方面的一种可能设计中,所述转化模块,还用于:
[0029]通过所述Word结构化引擎,将所述Word文件中的所述初始id转化为所述目标id,生成所述初始XML文件;
[0030]获取所述初始id与所述目标id的映射关系,生成所述资源映射文件。
[0031]在第二方面的另一种可能设计中,所述增补模块,还用于:
[0032]根据所述资源映射文件,将所述板式信息集合增补到所述初始XML文件中;
[0033]根据所述期刊元数据的预设位置,将所述期刊元数据增补到所述初始XML文件中;
[0034]生成所述目标XML文件。
[0035]可选的,所述板式信息集合包括每个图片对象对应的版式信息,每个表格对象对应的版式信息以及每个公式对象对应的版式信息。
[0036]可选的,每个图片对象对应的板式信息包括所述图片对象的尺寸数据和图片替代图数据;
[0037]每个公式对象对应的板式信息包括所述公式对象的尺寸数据和公式替代图数据;
[0038]每个表格对象对应的板式信息包括所述表格对象的尺寸数据和表格替代图数据。
[0039]可选的,所述期刊元数据包括页码信息、章节数位物件识别号DOI、出版社信息。
[0040]可选的,替代图数据包括高清替代图数据和非高清替代图数据,所述高清替代图的像素高于第一预设像素,所述非高清替代图的像素低于第二预设像素,所述第一预设像
素大于所述第二预设像素;
[0041]其中,所述替代图数据包括所述图片替代图数据,所述公式替代图数据以及所述表格替代图中的至少一个。
[0042]第三方面,本申请实施例提供一种电子设备,包括:处理器、存储器及存储在所述存储器上并可在处理器上运行的计算机程序指令,所述处理器执行所述计算机程序指令时用于实现第一方面以及各可能设计提供的方法。
[0043]第四方面,本申请实施例可提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现第一方面以及各可能设计提供的方法。
[0044]第五方面,本申请实施例提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时用于实现第一方面以及各可能设计提供的方法。
[0045]本申请实本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种排版文件转换为XML数据的方法,其特征在于,包括:将待转换的排版文件转化为Word文件和增补资源包,所述Word文件中包括至少一个图片对象,至少一个表格对象以及至少一个公式对象,所述增补资源包中包括板式信息集合以及期刊元数据,所述Word文件中的每个对象与所述板式信息集合中所述对象对应的板式信息设置相同的初始身份标识号id;将所述Word文件通过Word结构化引擎,转化为初始可扩展标记语言XML文件以及资源映射文件,所述资源映射文件包括所述初始id与生成的目标id之间的映射关系;根据所述资源映射文件以及所述期刊元数据的预设位置,将所述增补资源包增补到所述初始XML文件中,生成目标XML文件。2.根据权利要求1所述的方法,其特征在于,所述将所述Word文件通过Word结构化引擎,转化为初始可扩展标记语言XML文件以及资源映射文件,包括:通过所述Word结构化引擎,将所述Word文件中的所述初始id转化为所述目标id,生成所述初始XML文件;获取所述初始id与所述目标id的映射关系,生成所述资源映射文件。3.根据权利要求1所述的方法,其特征在于,所述根据所述资源映射文件以及所述期刊元数据的预设位置,将所述增补资源包增补到所述初始XML文件中,生成目标XML文件,包括:根据所述资源映射文件,将所述板式信息集合增补到所述初始XML文件中;根据所述期刊元数据的预设位置,将所述期刊元数据增补到所述初始XML文件中;生成所述目标XML文件。4.根据权利要求1至3任一项所述的方法,其特征在于,所述板式信息集合包括每个图片对象对应的版式信息,每个表格对象对应的版式信息以及每个公式对象对应的版式信息。5.根据权利要求4所述的方法,其特征在于,每个图片对象对应的板式信息包括所述图片对象的尺寸数据和图片替代图数据;每个公式对象对应的板式信息包括所述公式对象的尺寸数据和公式替代图数据;每个表格对象对应的板式信息包括所述表格对象的尺寸数据和表格替...

【专利技术属性】
技术研发人员:谭伟王婷王全鹏
申请(专利权)人:北京北大方正电子有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1