版式文档的比对方法、装置、设备及计算机存储介质制造方法及图纸

技术编号:24251984 阅读:23 留言:0更新日期:2020-05-22 23:48
本发明专利技术提供一种版式文档的比对方法、装置、设备及计算机存储介质,该方法包括:获取第一版式文档和第二版式文档;分别生成所述第一版式文档对应的第一段落序列和所述第二版式文档对应的第二段落序列;根据所述第一段落序列和所述第二段落序列,对所述第一版式文档和所述第二版式文档中排序相同的段落进行比对,得到并输出比对结果。本发明专利技术实施例提供的方案能够方便高效的实现版式文档的比对。

Comparison method, device, equipment and computer storage medium of layout document

【技术实现步骤摘要】
版式文档的比对方法、装置、设备及计算机存储介质
本专利技术涉及计算机
,具体涉及一种版式文档的比对方法、装置、设备及计算机存储介质。
技术介绍
可扩展标记语言(ExtensibleMarkupLanguage,XML)排版系统是一种常用的版式文档排版系统,其是一套利用前期结构化的数据和预先设计好的模板,通过版式排版软件的排版能力,自动化的实现排版、印刷、网刊发布流程的通用系统。在整个系统流程中,依据业务需要,可能需要手工对稿件通过版式排版编辑软件对版式文档做些内容修改和格式样式调整工作,这就要求在流程中能够随时监控版式文档的内容修改和格式样式调整,因此需要一种版式文档比对方案,以便能够方便高效的实现版式文档的比对。
技术实现思路
本申请实施例提供一种版式文档的比对方法、装置、设备及计算机存储介质,用以高效的实现版式文档比对。本申请实施例第一方面提供一种版式文档的比对方法,包括:获取第一版式文档和第二版式文档;分别生成所述第一版式文档对应的第一段落序列和所述第二版式文档对应的第二段落序列;根据所述第一段落序列和所述第二段落序列,对所述第一版式文档和所述第二版式文档中排序相同的段落进行比对,得到并输出比对结果。在一种实施方式中,对所述第一版式文档和所述第二版式文档中排序相同的段落进行比对,包括:根据所述第一版式文档中第一段落的段落数据,计算所述第一段落对应的第一哈希值,以及根据所述第二版式文档中第二段落的段落数据,计算所述第二段落对应的第二哈希值,其中,所述段落数据包括段落内容和段落格式;确定所述第一哈希值与所述第二哈希值是否一致;若所述第一哈希值和所述第二哈希值不一致,则分别将所述第一段落的段落内容与所述第二段落的段落内容进行比对,将所述第一段落的段落格式与所述第二段落的段落格式进行比对;其中,所述第一段落在所述第一版式文档中的排序与所述第二段落在所述第二版式文档中的排序相同。在一种实施方式中,将第一段落的段落内容与所述第二段落的段落内容进行比对,包括:对所述第一段落和所述第二段落中的文本内容和标点符号进行逐个比对;对所述第一段落和所述第二段落中的图片和/或表格进行比对。在一种实施方式中,对第一段落和所述第二段落中的文本内容和标点符号进行逐个比对,包括:生成所述第一段落和所述第二段落中每个文字和标点对应的哈希值;根据文字和标点在所述第一段落中的排布顺序,对所述第一段落中的文字和标点的哈希值进行排序,生成第一序列;根据文字和标点在所述第二段落中的排布顺序,对所述第二段落中的文字和标点的哈希值进行排序,生成第二序列;将所述第一序列和所述第二序列中的哈希值进行逐个比对。本申请实施例第二方面提供一种版式文档的比对装置,包括:获取模块,用于获取第一版式文档和第二版式文档;生成模块,用于分别生成所述第一版式文档对应的第一段落序列和所述第二版式文档对应的第二段落序列;比对模块,用于根据所述第一段落序列和所述第二段落序列,对所述第一版式文档和所述第二版式文档中排序相同的段落进行比对,得到并输出比对结果。在一种实施方式中,比对模块,包括:计算子模块,用于根据所述第一版式文档中第一段落的段落数据,计算所述第一段落对应的第一哈希值,以及根据所述第二版式文档中第二段落的段落数据,计算所述第二段落对应的第二哈希值,其中,所述段落数据包括段落内容和段落格式;确定子模块,用于确定所述第一哈希值与所述第二哈希值是否一致;比对子模块,用于在所述第一哈希值和所述第二哈希值不一致时,分别将所述第一段落的段落内容与所述第二段落的段落内容进行比对,将所述第一段落的段落格式与所述第二段落的段落格式进行比对;其中,所述第一段落在所述第一版式文档中的排序与所述第二段落在所述第二版式文档中的排序相同。在一种实施方式中,比对子模块,包括:第一比对子单元,用于对所述第一段落和所述第二段落中的文本内容和标点符号进行逐个比对;第二比对子单元,用于对所述第一段落和所述第二段落中的图片和/或表格进行比对。在一种实施方式中,第一比对子单元在对第一段落和所述第二段落中的文本内容和标点符号进行逐个比对时,用于:生成所述第一段落和所述第二段落中每个文字和标点对应的哈希值;根据文字和标点在所述第一段落中的排布顺序,对所述第一段落中的文字和标点的哈希值进行排序,生成第一序列;根据文字和标点在所述第二段落中的排布顺序,对所述第二段落中的文字和标点的哈希值进行排序,生成第二序列;将所述第一序列和所述第二序列中的哈希值进行逐个比对。本申请实施例第三方面提供一种计算机设备,其包括处理器、显示屏和存储器;所述存储器中存储有指令,当所述指令被所述处理器执行时,所述处理器执行本专利技术第一方面任一项所述的方法。本申请实施例第四方面提供一种计算机存储介质,计算机存储介质上存储有计算机指令,所述计算机指令用于使所述计算机执行本专利技术第一方面任一项所述的方法。基于以上各方面,本申请实施例提供的版式文档的比对方法、装置、设备及计算机存储介质,通过获取第一版式文档和第二版式文档;分别生成所述第一版式文档对应的第一段落序列和所述第二版式文档对应的第二段落序列;根据所述第一段落序列和所述第二段落序列,对所述第一版式文档和所述第二版式文档中排序相同的段落进行比对,得到并输出比对结果,实现了版式文档的自动比对,提高了版式文档的比对效率,降低了比对的复杂度。应当理解,上述
技术实现思路
部分中所描述的内容并非旨在限定本申请的实施例的关键或重要特征,亦非用于限制本申请的范围。本公申请的其它特征将通过以下的描述变得容易理解。附图说明图1为本申请实施例提供的一种版式文档内容结构示意图;图2为本申请实施例提供的一种版文档节点关联关系示意图;图3为本申请实施例提供的一种版式文档的比对方法的流程图;图4为本申请实施例提供的一种段落序列结构示意图;图5为本申请实施例提供的一种文章内容编号关联示意图;图6为本申请实施例提供的一种段落比对方法的流程图;图7为本申请实施例提供的一种段落内容比对方法的流程图;图8为本申请实施例提供的一种段落中文本内容和标点符号进行逐个比对方法的流程图;图9为本申请实施例提供的一种段落内容序列结构示意图;图10为本申请实施例提供的一种版式文档的比对装置的结构示意图;图11为本申请实施例提供的一种比对模块的结构示意图;图12为本申请实施例提供的一种比对子模块的结构示意图;图13为本申请实施例提供的一种计算机设备的结构示意图。具体实施方式下面将参照附图更详细地描述本申请的实施例。虽然附图中显示了本申请的某些实施例,然而应当理解的是,本申请可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实本文档来自技高网
...

【技术保护点】
1.一种版式文档的比对方法,其特征在于,包括:/n获取第一版式文档和第二版式文档;/n分别生成所述第一版式文档对应的第一段落序列和所述第二版式文档对应的第二段落序列;/n根据所述第一段落序列和所述第二段落序列,对所述第一版式文档和所述第二版式文档中排序相同的段落进行比对,得到并输出比对结果。/n

【技术特征摘要】
1.一种版式文档的比对方法,其特征在于,包括:
获取第一版式文档和第二版式文档;
分别生成所述第一版式文档对应的第一段落序列和所述第二版式文档对应的第二段落序列;
根据所述第一段落序列和所述第二段落序列,对所述第一版式文档和所述第二版式文档中排序相同的段落进行比对,得到并输出比对结果。


2.根据权利要求1所述的方法,其特征在于,所述对所述第一版式文档和所述第二版式文档中排序相同的段落进行比对,包括:
根据所述第一版式文档中第一段落的段落数据,计算所述第一段落对应的第一哈希值,以及根据所述第二版式文档中第二段落的段落数据,计算所述第二段落对应的第二哈希值,其中,所述段落数据包括段落内容和段落格式;
确定所述第一哈希值与所述第二哈希值是否一致;
若所述第一哈希值和所述第二哈希值不一致,则分别将所述第一段落的段落内容与所述第二段落的段落内容进行比对,将所述第一段落的段落格式与所述第二段落的段落格式进行比对;
其中,所述第一段落在所述第一版式文档中的排序与所述第二段落在所述第二版式文档中的排序相同。


3.根据权利要求2所述的方法,其特征在于,所述将所述第一段落的段落内容与所述第二段落的段落内容进行比对,包括:
对所述第一段落和所述第二段落中的文本内容和标点符号进行逐个比对;
对所述第一段落和所述第二段落中的图片和/或表格进行比对。


4.根据权利要求3所述的方法,其特征在于,所述对所述第一段落和所述第二段落中的文本内容和标点符号进行逐个比对,包括:
生成所述第一段落和所述第二段落中每个文字和标点对应的哈希值;
根据文字和标点在所述第一段落中的排布顺序,对所述第一段落中的文字和标点的哈希值进行排序,生成第一序列;
根据文字和标点在所述第二段落中的排布顺序,对所述第二段落中的文字和标点的哈希值进行排序,生成第二序列;
将所述第一序列和所述第二序列中的哈希值进行逐个比对。


5.一种版式文档的比对装置,其特征在于,包括:
获取模块,用于获取第一版式文档和第二版式文档;
生成模块,用于分别生成所述第一版式文档对应的第一段落序列和所述第二版式文档对应的第二段...

【专利技术属性】
技术研发人员:严昌华
申请(专利权)人:北大方正集团有限公司北京北大方正电子有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1