The present disclosure relates to a text block sorting method, device, storage medium and electronic equipment. The methods shown include: establishing the adjacency relationship between the text blocks according to the position information of the text blocks in the document, the adjacency relationship includes the first adjacency relationship used to represent the horizontal adjacency of the text blocks and/or the second adjacency relationship used to represent the vertical adjacency of the text blocks; and the second adjacency relationship used to represent the horizontal adjacency of the text blocks according to the text blocks. The adjacency relation between them generates an ordered set of text blocks adjacent to the same kind of adjacency relation. For the ordered set with the same kind of adjacency relation, the order of each text block is determined according to the order of position between ordered sets and the order of text blocks in each ordered set. Through the technical scheme of the present disclosure, the text blocks in the entire document are logically ordered.
【技术实现步骤摘要】
文字块排序方法、装置、存储介质及电子设备
本公开涉及文字比较领域,具体地,涉及一种文字块排序方法、装置、存储介质及电子设备。
技术介绍
在文字处理领域,文字比较功能会经常使用到,例如比较两文档之间的差异性。在对两篇文档的内容进行比较时,通常以行为单位进行比较,但是在两篇文档字号、字体、排版不一致的情况下,同一行显示的文字的数量不一致,以行为单位进行比较无法得到准确的结果。如果以单词(汉语情况下一个汉字为一个单词)为单位进行比较,由于某些文档无法按照阅读习惯找出各单词之间的相对次序,使得该比较方式难以实现。而将文档划分为多个文字块,以文字块为单位进行文字比较,相比于以行或单词为最小单位进行比较,准确度和效率更高,但该方式实现的前提条件是需要找到文字块的排列顺序。由于文字块的大小不同,有的文字块可能占据文档的几行,无法直接采用传统的排序方法,依次对每行或每列的文字块进行排序。
技术实现思路
本公开的目的是提供一种文字块排序方法、装置、存储介质及电子设备,用以对文档中的文字块进行排序,以基于文字块的排列顺序进行文字比较,提升文字比较的速度和精度。为了实现上述目的,本公开实施例第一方面提供一种文字块排序方法,包括:根据文档中的文字块的位置信息,建立所述文字块间的邻接关系,所述邻接关系包括用于表征文字块水平邻接的第一邻接关系和/或表征文字块竖直邻接的第二邻接关系;根据所述文字块间的邻接关系,生成按照同一种邻接关系相邻接的文字块的有序集合;针对具有同一种邻接关系的所述有序集合,根据有序集合之间的位置先后顺序以及每一所述有序集合中的文字块的先后顺序,确定每一所述文字块的排列 ...
【技术保护点】
1.一种文字块排序方法,其特征在于,包括:根据文档中的文字块的位置信息,建立所述文字块间的邻接关系,所述邻接关系包括用于表征文字块水平邻接的第一邻接关系和/或表征文字块竖直邻接的第二邻接关系;根据所述文字块间的邻接关系,生成按照同一种邻接关系相邻接的文字块的有序集合;针对具有同一种邻接关系的所述有序集合,根据有序集合之间的位置先后顺序以及每一所述有序集合中的文字块的先后顺序,确定每一所述文字块的排列顺序。
【技术特征摘要】
1.一种文字块排序方法,其特征在于,包括:根据文档中的文字块的位置信息,建立所述文字块间的邻接关系,所述邻接关系包括用于表征文字块水平邻接的第一邻接关系和/或表征文字块竖直邻接的第二邻接关系;根据所述文字块间的邻接关系,生成按照同一种邻接关系相邻接的文字块的有序集合;针对具有同一种邻接关系的所述有序集合,根据有序集合之间的位置先后顺序以及每一所述有序集合中的文字块的先后顺序,确定每一所述文字块的排列顺序。2.根据权利要求1所述的方法,其特征在于,所述文字块的位置信息包括所述文字块的顶点坐标信息;所述根据文档中的文字块的位置信息,建立所述文字块间的邻接关系,包括:根据各个所述文字块的顶点坐标信息,确定所述文字块间的间距;针对每一所述文字块,选取第一顶点的纵坐标小于该文字块的第二顶点的纵坐标、第二顶点的纵坐标大于该文字块的第一顶点的纵坐标且与该文字块的间距最小的文字块,作为该文字块的水平邻接文字块,并将该文字块与所述水平邻接文字块建立所述第一邻接关系;和/或,选取第一顶点的横坐标小于该文字块的第二顶点的横坐标、第二顶点的横坐标大于该文字块的第一顶点的横坐标且与该文字块的间距最小的文字块,作为该文字块的竖直邻接文字块,并将该文字块与所述竖直邻接文字块建立所述第二邻接关系。3.根据权利要求1所述的方法,其特征在于,在所述根据有序集合之间的位置先后顺序以及每一所述有序集合中的文字块的先后顺序,确定每一所述文字块的排列顺序之前,还包括:判断所述具有同一种邻接关系的所述有序集合中是否存在相同的文字块;若所述具有同一种邻接关系的所述有序集合中存在相同的文字块,则对有序集合中相同的文字块进行去重处理。4.根据权利要求3所述的方法,其特征在于,所述对有序集合中相同的文字块进行去重处理,包括:选取存在相同文字块的两个有序集合,确定第一有序集合中位于所述相同文字块两侧的第一有序子集合和第二有序子集合,以及第二集合中位于所述相同文字块两侧的第三有序子集合和第四有序子集合;以所述第一有序集合为基准,将所述第三有序子集合插入到所述第一有序子集合和所述相同文字块之间,以及将所述第四有序子集合插入到所述第二有序子集合之后,得到新的有序集合。5.一种文字块排序装置,其特征在于,包括:建立模块,用于根据文档中的文字块的位置信息,建立所述文字块间的邻接关系,所述邻接关系包括用于表征文字块水平邻接的第一邻接关系和/或表征文字块处于竖直邻接的第二...
【专利技术属性】
技术研发人员:韩志刚,
申请(专利权)人:东软集团股份有限公司,
类型:发明
国别省市:辽宁,21
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。