文字块排序方法、装置、存储介质及电子设备制造方法及图纸

技术编号:21343636 阅读:51 留言:0更新日期:2019-06-13 22:31
本公开涉及一种文字块排序方法、装置、存储介质及电子设备,所示方法包括:根据文档中的文字块的位置信息,建立所述文字块间的邻接关系,所述邻接关系包括用于表征文字块水平邻接的第一邻接关系和/或表征文字块竖直邻接的第二邻接关系;根据所述文字块间的邻接关系,生成按照同一种邻接关系相邻接的文字块的有序集合;针对具有同一种邻接关系的所述有序集合,根据有序集合之间的位置先后顺序以及每一所述有序集合中的文字块的先后顺序,确定每一所述文字块的排列顺序。通过本公开的技术方案,整篇文档中的文字块在逻辑上有序。

Text Block Sorting Method, Device, Storage Media and Electronic Equipment

The present disclosure relates to a text block sorting method, device, storage medium and electronic equipment. The methods shown include: establishing the adjacency relationship between the text blocks according to the position information of the text blocks in the document, the adjacency relationship includes the first adjacency relationship used to represent the horizontal adjacency of the text blocks and/or the second adjacency relationship used to represent the vertical adjacency of the text blocks; and the second adjacency relationship used to represent the horizontal adjacency of the text blocks according to the text blocks. The adjacency relation between them generates an ordered set of text blocks adjacent to the same kind of adjacency relation. For the ordered set with the same kind of adjacency relation, the order of each text block is determined according to the order of position between ordered sets and the order of text blocks in each ordered set. Through the technical scheme of the present disclosure, the text blocks in the entire document are logically ordered.

【技术实现步骤摘要】
文字块排序方法、装置、存储介质及电子设备
本公开涉及文字比较领域,具体地,涉及一种文字块排序方法、装置、存储介质及电子设备。
技术介绍
在文字处理领域,文字比较功能会经常使用到,例如比较两文档之间的差异性。在对两篇文档的内容进行比较时,通常以行为单位进行比较,但是在两篇文档字号、字体、排版不一致的情况下,同一行显示的文字的数量不一致,以行为单位进行比较无法得到准确的结果。如果以单词(汉语情况下一个汉字为一个单词)为单位进行比较,由于某些文档无法按照阅读习惯找出各单词之间的相对次序,使得该比较方式难以实现。而将文档划分为多个文字块,以文字块为单位进行文字比较,相比于以行或单词为最小单位进行比较,准确度和效率更高,但该方式实现的前提条件是需要找到文字块的排列顺序。由于文字块的大小不同,有的文字块可能占据文档的几行,无法直接采用传统的排序方法,依次对每行或每列的文字块进行排序。
技术实现思路
本公开的目的是提供一种文字块排序方法、装置、存储介质及电子设备,用以对文档中的文字块进行排序,以基于文字块的排列顺序进行文字比较,提升文字比较的速度和精度。为了实现上述目的,本公开实施例第一方面提供一种文字块排序方法,包括:根据文档中的文字块的位置信息,建立所述文字块间的邻接关系,所述邻接关系包括用于表征文字块水平邻接的第一邻接关系和/或表征文字块竖直邻接的第二邻接关系;根据所述文字块间的邻接关系,生成按照同一种邻接关系相邻接的文字块的有序集合;针对具有同一种邻接关系的所述有序集合,根据有序集合之间的位置先后顺序以及每一所述有序集合中的文字块的先后顺序,确定每一所述文字块的排列顺序。可选地,所述文字块的位置信息包括所述文字块的顶点坐标信息;所述根据文档中的文字块的位置信息,建立所述文字块间的邻接关系,包括:根据各个所述文字块的顶点坐标信息,确定所述文字块间的间距;针对每一所述文字块,选取第一顶点的纵坐标小于该文字块的第二顶点的纵坐标、第二顶点的纵坐标大于该文字块的第一顶点的纵坐标且与该文字块的间距最小的文字块,作为该文字块的水平邻接文字块,并将该文字块与所述水平邻接文字块建立所述第一邻接关系;和/或,选取第一顶点的横坐标小于该文字块的第二顶点的横坐标、第二顶点的横坐标大于该文字块的第一顶点的横坐标且与该文字块的间距最小的文字块,作为该文字块的竖直邻接文字块,并将该文字块与所述竖直邻接文字块建立所述第二邻接关系。可选地,在所述根据有序集合之间的位置先后顺序以及每一所述有序集合中的文字块的先后顺序,确定每一所述文字块的排列顺序之前,还包括:判断所述具有同一种邻接关系的所述有序集合中是否存在相同的文字块;若所述具有同一种邻接关系的所述有序集合中存在相同的文字块,则对有序集合中相同的文字块进行去重处理。可选地,所述对有序集合中相同的文字块进行去重处理,,包括:选取存在相同文字块的两个有序集合,确定第一有序集合中位于所述相同文字块两侧的第一有序子集合和第二有序子集合,以及第二集合中位于所述相同文字块两侧的第三有序子集合和第四有序子集合;以所述第一有序集合为基准,将所述第三有序子集合插入到所述第一有序子集合和所述相同文字块之间,以及将所述第四有序子集合插入到所述第二有序子集合之后,得到新的有序集合。本公开实施例第二方面提供一种文字块排序装置,包括:建立模块,用于根据文档中的文字块的位置信息,建立所述文字块间的邻接关系,所述邻接关系包括用于表征文字块处于水平邻接的第一邻接关系和/或表征文字块处于竖直邻接的第二邻接关系;生成模块,用于根据所述文字块间的邻接关系,生成按照同一种邻接关系相邻接的文字块的有序集合;排序模块,用于针对具有同一种邻接关系的所述有序集合,根据有序集合之间的位置先后顺序以及每一所述有序集合中的文字块的先后顺序,确定每一所述文字块的排列顺序。可选地,所述文字块的位置信息包括所述文字块的顶点坐标信息;所述建立模块包括:第一确定子模块,用于根据所述文字块的顶点坐标信息,确定所述文字块间的间距;第一建立子模块,用于针对每一所述文字块,选取第一顶点的纵坐标小于该文字块的第二顶点的纵坐标、第二顶点的纵坐标大于该文字块的第一顶点的纵坐标且与该文字块的间距最小的文字块,作为该文字块的水平邻接文字块,并将该文字块与所述水平邻接文字块建立所述第一邻接关系;和/或,第二建立子模块,用于针对每一所述文字块,选取第一顶点的横坐标小于该文字块的第二顶点的横坐标、第二顶点的横坐标大于该文字块的第一顶点的横坐标且与该文字块的间距最小的文字块,作为该文字块的竖直邻接文字块,并将该文字块与所述竖直邻接文字块建立所述第二邻接关系。可选地,所述装置还包括:判断模块,用于在根据有序集合之间的位置先后顺序以及每一所述有序集合中的文字块的先后顺序,确定每一所述文字块的排列顺序之前,判断所述具有同一种邻接关系的所述有序集合中是否存在相同的文字块;去重处理模块,用于若所述具有同一种邻接关系的所述有序集合中存在相同的文字块,则对有序集合中相同的文字块进行去重处理。可选地,所述去重处理模块包括:第二确定子模块,用于选取存在相同文字块的两个有序集合,确定第一有序集合中位于所述相同文字块两侧的第一有序子集合和第二有序子集合,以及第二集合中位于所述相同文字块两侧的第三有序子集合和第四有序子集合;插入子模块,用于以所述第一有序集合为基准,将所述第三有序子集合插入到所述第一有序子集合和所述相同文字块之间,以及将所述第四有序子集合插入到所述第二有序子集合之后,得到新的有序集合。本公开实施例第三方面提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本公开实施例第一方面所述方法的步骤。本公开实施例第四方面提供一种电子设备,包括:存储器,其上存储有计算机程序;处理器,用于执行所述存储器中的所述计算机程序,以实现本公开实施例第一方面所述方法的步骤。采用本公开提供的技术方案,至少能够达到如下技术效果:根据文档中的文字块的位置信息建立文字块间的邻接关系,根据文字块间的邻接关系生成按照同一种邻接关系相邻接的文字块的有序集合,针对具有同一种邻接关系的有序集合,根据有序集合之间的位置先后顺序以及每一有序集合中的文字块的先后顺序,确定每一文字块的排列顺序。这样,整篇文档中的文字块在逻辑上有序。并且,基于两篇待比较的文档中各个文字块的排列顺序,以文字块为单位,将两篇文档中排列顺序相同的文字块组成文字块对进行文字比较,效率比以单词为最小单位进行比较的效率更高。本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。附图说明附图是用来提供对本公开的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本公开,但并不构成对本公开的限制。在附图中:图1是本公开实施例提供的一种文字块排序方法的流程图;图2是本公开实施例提供的一种用于表征文字块间的相对位置的矩阵图;图3是本公开实施例提供的一种文字块间的邻接关系示意图;图4是本公开实施例提供的一种文字块的排列顺序的示意图;图5是本公开实施例提供的另一种文字块的排列顺序的示意图;图6是本公开实施例提供的一种文字块排序装置的框图;图7是本公开实施例提供的另一种文字块排序装置的框图;图8是本公开实施例提供的一种电子设本文档来自技高网...

【技术保护点】
1.一种文字块排序方法,其特征在于,包括:根据文档中的文字块的位置信息,建立所述文字块间的邻接关系,所述邻接关系包括用于表征文字块水平邻接的第一邻接关系和/或表征文字块竖直邻接的第二邻接关系;根据所述文字块间的邻接关系,生成按照同一种邻接关系相邻接的文字块的有序集合;针对具有同一种邻接关系的所述有序集合,根据有序集合之间的位置先后顺序以及每一所述有序集合中的文字块的先后顺序,确定每一所述文字块的排列顺序。

【技术特征摘要】
1.一种文字块排序方法,其特征在于,包括:根据文档中的文字块的位置信息,建立所述文字块间的邻接关系,所述邻接关系包括用于表征文字块水平邻接的第一邻接关系和/或表征文字块竖直邻接的第二邻接关系;根据所述文字块间的邻接关系,生成按照同一种邻接关系相邻接的文字块的有序集合;针对具有同一种邻接关系的所述有序集合,根据有序集合之间的位置先后顺序以及每一所述有序集合中的文字块的先后顺序,确定每一所述文字块的排列顺序。2.根据权利要求1所述的方法,其特征在于,所述文字块的位置信息包括所述文字块的顶点坐标信息;所述根据文档中的文字块的位置信息,建立所述文字块间的邻接关系,包括:根据各个所述文字块的顶点坐标信息,确定所述文字块间的间距;针对每一所述文字块,选取第一顶点的纵坐标小于该文字块的第二顶点的纵坐标、第二顶点的纵坐标大于该文字块的第一顶点的纵坐标且与该文字块的间距最小的文字块,作为该文字块的水平邻接文字块,并将该文字块与所述水平邻接文字块建立所述第一邻接关系;和/或,选取第一顶点的横坐标小于该文字块的第二顶点的横坐标、第二顶点的横坐标大于该文字块的第一顶点的横坐标且与该文字块的间距最小的文字块,作为该文字块的竖直邻接文字块,并将该文字块与所述竖直邻接文字块建立所述第二邻接关系。3.根据权利要求1所述的方法,其特征在于,在所述根据有序集合之间的位置先后顺序以及每一所述有序集合中的文字块的先后顺序,确定每一所述文字块的排列顺序之前,还包括:判断所述具有同一种邻接关系的所述有序集合中是否存在相同的文字块;若所述具有同一种邻接关系的所述有序集合中存在相同的文字块,则对有序集合中相同的文字块进行去重处理。4.根据权利要求3所述的方法,其特征在于,所述对有序集合中相同的文字块进行去重处理,包括:选取存在相同文字块的两个有序集合,确定第一有序集合中位于所述相同文字块两侧的第一有序子集合和第二有序子集合,以及第二集合中位于所述相同文字块两侧的第三有序子集合和第四有序子集合;以所述第一有序集合为基准,将所述第三有序子集合插入到所述第一有序子集合和所述相同文字块之间,以及将所述第四有序子集合插入到所述第二有序子集合之后,得到新的有序集合。5.一种文字块排序装置,其特征在于,包括:建立模块,用于根据文档中的文字块的位置信息,建立所述文字块间的邻接关系,所述邻接关系包括用于表征文字块水平邻接的第一邻接关系和/或表征文字块处于竖直邻接的第二...

【专利技术属性】
技术研发人员:韩志刚
申请(专利权)人:东软集团股份有限公司
类型:发明
国别省市:辽宁,21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1