文字块排序方法、装置、存储介质及电子设备制造方法及图纸

技术编号:23853107 阅读:60 留言:0更新日期:2020-04-18 09:40
本公开涉及一种文字块排序方法、装置、存储介质及电子设备。该方法包括:获取目标文字块序列;针对目标文字块序列中的相邻文字块对,根据相邻文字块对中各文字块在第一方向上的位置大小,确定目标文字块序列的分界文字块;根据分界文字块,将目标文字块序列划分为多个子序列;若多个子序列中存在包括多个文字块的目标子序列,则根据文字块在文档中的第二方向的位置大小,对该目标子序列中的各文字块进行排序;若多个子序列中不存在包括多个文字块的子序列,即所述目标文字块序列被划分为所有单个文字块作为的子序列时,得到所述目标文字块序列的文字块排序结果。采用本公开的技术方法,与传统方法相比,可以降低对文字块进行排序时的复杂度。

Text block sorting method, device, storage medium and electronic equipment

【技术实现步骤摘要】
文字块排序方法、装置、存储介质及电子设备
本公开涉及文字比较领域,具体地,涉及一种文字块排序方法、装置、存储介质及电子设备。
技术介绍
在日常工作中,文字比较功能经常被使用到,例如,论文查重时比较两个文档之间的差异性,又例如比较两个计算机程序代码的差异性。在对两个文档的内容进行比较时,通常将文档按照行或者句进行划分,得到多个文字块,再以文字块为单位进行文字比较。而该方式实现的前提条件是需要对文字块进行排序。目前,常使用图算法对文字块进行排序,首先,把每个文字块看成顶点,顶点之间的关系看成边,借助距离作为权值生成图,再结合深度遍历算法或者其他特定的算法对文字块进行排序,但是这些算法在实现时具有较高的复杂度,会占用较多的内存资源,并且耗费时间。
技术实现思路
本公开的目的是提供一种文字块排序方法、装置、存储介质及电子设备,以减少对文档中的文字块进行排序时的资源耗费。为了实现上述目的,根据本公开实施例的第一方面,提供一种文字块排序方法,包括:获取目标文字块序列,所述目标文字块序列包括多个文字块,所述多个文字块在所述目标文字块序列中,是以文字块在文档中的第一方向的位置大小进行的排序,所述第一方向为纵向或者横向;针对所述目标文字块序列中的相邻文字块对,根据所述相邻文字块对中各文字块在所述第一方向上的位置大小,确定所述目标文字块序列的分界文字块,所述分界文字块是与相邻文字块对中的另一文字块在所述文档的所述第一方向上不存在相同坐标范围的文字块;根据所述分界文字块,将所述目标文字块序列划分为多个子序列;若所述多个子序列中存在包括多个文字块的目标子序列,则根据文字块在所述文档中的第二方向的位置大小,对该目标子序列中的各文字块进行排序,所述第二方向是纵向和横向中的与所述第一方向不同的方向;将每一所述目标子序列作为新的所述目标文字块序列,并将所述目标子序列的所述第二方向作为新的所述目标文字块序列的第一方向,以重复执行上述针对目标文字块序列进行的确定分界文字块以及划分子序列,以及针对包括多个文字块的目标子序列中的各文字块进行排序的步骤,直到所述目标文字块序列被划分为所有单个文字块作为的子序列时,得到所述目标文字块序列的文字块排序结果。可选地,所述获取目标文字块序列,包括:获取所述文档中各文字块的位置信息,所述位置信息包括第一坐标信息和第二坐标信息,所述第一坐标信息包括文字块距离坐标原点的最近点的横坐标和纵坐标,所述第二坐标信息是文字块距离所述坐标原点的最远点的横坐标和纵坐标;根据文字块在所述第一坐标信息中的纵坐标与在所述第二坐标信息中的纵坐标之和的大小,对所述文档中的各文字块进行预排序,得到初始文字块序列,并将所述初始文字块序列作为所述目标文字块序列;或者,根据文字块在所述第一坐标信息中的横坐标与在所述第二坐标信息中的横坐标之和的大小,对所述文档中的各文字块进行预排序,得到初始文字块序列,并将所述初始文字块序列作为所述目标文字块序列。可选地,所述获取目标文字块序列,包括:获取所述文档中各文字块的位置信息,所述位置信息包括第一坐标信息和第二坐标信息,所述第一坐标信息包括文字块距离坐标原点的最近点的横坐标和纵坐标,所述第二坐标信息是文字块距离所述坐标原点的最远点的横坐标和纵坐标;根据文字块在所述第一坐标信息中的纵坐标与在所述第二坐标信息中的纵坐标之和的大小,对所述文档中的各文字块进行预排序,得到初始文字块序列,并将所述初始文字块序列作为所述目标文字块序列;所述方法还包括:若所述初始文字块序列不存在所述分界文字块,则根据文字块在所述第一坐标信息中的横坐标与在所述第二坐标信息中的横坐标之和的大小,对所述文档中的各文字块进行预排序,得到新的目标文字块序列。可选地,所述针对所述目标文字块序列中的相邻文字块对,根据所述相邻文字块对中各文字块在所述第一方向上的位置大小,确定所述目标文字块序列的分界文字块,包括:对于任意所述相邻文字块对中的第一文字块和第二文字块,判断该第一文字块在所述第一方向上的最小坐标是否小于该第二文字块在所述第一方向上的最大坐标,以及判断该第二文字块在所述第一方向上的最小坐标是否小于所述第一文字块在所述第一方向上的最大坐标;若该第一文字块在所述第一方向上的最小坐标大于该第二文字块在所述第一方向上的最大坐标,或者,该第二文字块在所述第一方向上的最小坐标大于所述第一文字块在所述第一方向上的最大坐标,则将所述第一文字块或者所述第二文字块作为所述分界文字块。根据本公开实施例的第二方面,提供一种文字块排序装置,包括:获取模块,用于获取目标文字块序列,所述目标文字块序列包括多个文字块,所述多个文字块在所述目标文字块序列中,是以文字块在文档中的第一方向的位置大小进行的排序,所述第一方向为纵向或者横向;确定模块,用于针对所述目标文字块序列中的相邻文字块对,根据所述相邻文字块对中各文字块在所述第一方向上的位置大小,确定所述目标文字块序列的分界文字块,所述分界文字块是与相邻文字块对中的另一文字块在所述文档的所述第一方向上不存在相同坐标范围的文字块;划分模块,用于根据所述分界文字块,将所述目标文字块序列划分为多个子序列;排序模块,用于若所述多个子序列中存在包括多个文字块的目标子序列,则根据文字块在所述文档中的第二方向的位置大小,对该目标子序列中的各文字块进行排序,所述第二方向是纵向和横向中的与所述第一方向不同的方向;执行模块,用于将每一所述目标子序列作为新的所述目标文字块序列,并将所述目标子序列的所述第二方向作为新的所述目标文字块序列的第一方向,以重复执行上述针对目标文字块序列进行的确定分界文字块以及划分子序列,以及针对包括多个文字块的目标子序列中的各文字块进行排序的步骤,直到所述目标文字块序列被划分为所有单个文字块作为的子序列时,得到所述目标文字块序列的文字块排序结果。可选地,所述获取模块包括:获取子模块,用于获取所述文档中各文字块的位置信息,所述位置信息包括第一坐标信息和第二坐标信息,所述第一坐标信息包括文字块距离坐标原点的最近点的横坐标和纵坐标,所述第二坐标信息是文字块距离所述坐标原点的最远点的横坐标和纵坐标;第一排序子模块,用于根据文字块在所述第一坐标信息中的纵坐标与在所述第二坐标信息中的纵坐标之和的大小,对所述文档中的各文字块进行预排序,得到初始文字块序列,并将所述初始文字块序列作为所述目标文字块序列;第二排序子模块,用于根据文字块在所述第一坐标信息中的横坐标与在所述第二坐标信息中的横坐标之和的大小,对所述文档中的各文字块进行预排序,得到初始文字块序列,并将所述初始文字块序列作为所述目标文字块序列。可选地,所述获取模块包括:获取子模块,用于获取所述文档中各文字块的位置信息,所述位置信息包括第一坐标信息和第二坐标信息,所述第一坐标信息包括文字块距离坐标原点的最近点的横坐标和纵坐标,所述第二坐标信息是文字块距离所述坐标原点的最远本文档来自技高网...

【技术保护点】
1.一种文字块排序方法,其特征在于,包括:/n获取目标文字块序列,所述目标文字块序列包括多个文字块,所述多个文字块在所述目标文字块序列中,是以文字块在文档中的第一方向的位置大小进行的排序,所述第一方向为纵向或者横向;/n针对所述目标文字块序列中的相邻文字块对,根据所述相邻文字块对中各文字块在所述第一方向上的位置大小,确定所述目标文字块序列的分界文字块,所述分界文字块是与相邻文字块对中的另一文字块在所述文档的所述第一方向上不存在相同坐标范围的文字块;/n根据所述分界文字块,将所述目标文字块序列划分为多个子序列;/n若所述多个子序列中存在包括多个文字块的目标子序列,则根据文字块在所述文档中的第二方向的位置大小,对该目标子序列中的各文字块进行排序,所述第二方向是纵向和横向中的与所述第一方向不同的方向;/n将每一所述目标子序列作为新的所述目标文字块序列,并将所述目标子序列的所述第二方向作为新的所述目标文字块序列的第一方向,以重复执行上述针对目标文字块序列进行的确定分界文字块以及划分子序列,以及针对包括多个文字块的目标子序列中的各文字块进行排序的步骤,直到所述目标文字块序列被划分为所有单个文字块作为的子序列时,得到所述目标文字块序列的文字块排序结果。/n...

【技术特征摘要】
1.一种文字块排序方法,其特征在于,包括:
获取目标文字块序列,所述目标文字块序列包括多个文字块,所述多个文字块在所述目标文字块序列中,是以文字块在文档中的第一方向的位置大小进行的排序,所述第一方向为纵向或者横向;
针对所述目标文字块序列中的相邻文字块对,根据所述相邻文字块对中各文字块在所述第一方向上的位置大小,确定所述目标文字块序列的分界文字块,所述分界文字块是与相邻文字块对中的另一文字块在所述文档的所述第一方向上不存在相同坐标范围的文字块;
根据所述分界文字块,将所述目标文字块序列划分为多个子序列;
若所述多个子序列中存在包括多个文字块的目标子序列,则根据文字块在所述文档中的第二方向的位置大小,对该目标子序列中的各文字块进行排序,所述第二方向是纵向和横向中的与所述第一方向不同的方向;
将每一所述目标子序列作为新的所述目标文字块序列,并将所述目标子序列的所述第二方向作为新的所述目标文字块序列的第一方向,以重复执行上述针对目标文字块序列进行的确定分界文字块以及划分子序列,以及针对包括多个文字块的目标子序列中的各文字块进行排序的步骤,直到所述目标文字块序列被划分为所有单个文字块作为的子序列时,得到所述目标文字块序列的文字块排序结果。


2.根据权利要求1所述的方法,其特征在于,所述获取目标文字块序列,包括:
获取所述文档中各文字块的位置信息,所述位置信息包括第一坐标信息和第二坐标信息,所述第一坐标信息包括文字块距离坐标原点的最近点的横坐标和纵坐标,所述第二坐标信息是文字块距离所述坐标原点的最远点的横坐标和纵坐标;
根据文字块在所述第一坐标信息中的纵坐标与在所述第二坐标信息中的纵坐标之和的大小,对所述文档中的各文字块进行预排序,得到初始文字块序列,并将所述初始文字块序列作为所述目标文字块序列;或者,
根据文字块在所述第一坐标信息中的横坐标与在所述第二坐标信息中的横坐标之和的大小,对所述文档中的各文字块进行预排序,得到初始文字块序列,并将所述初始文字块序列作为所述目标文字块序列。


3.根据权利要求2所述的方法,其特征在于,所述获取目标文字块序列,包括:
获取所述文档中各文字块的位置信息,所述位置信息包括第一坐标信息和第二坐标信息,所述第一坐标信息包括文字块距离坐标原点的最近点的横坐标和纵坐标,所述第二坐标信息是文字块距离所述坐标原点的最远点的横坐标和纵坐标;
根据文字块在所述第一坐标信息中的纵坐标与在所述第二坐标信息中的纵坐标之和的大小,对所述文档中的各文字块进行预排序,得到初始文字块序列,并将所述初始文字块序列作为所述目标文字块序列;
所述方法还包括:若所述初始文字块序列不存在所述分界文字块,则根据文字块在所述第一坐标信息中的横坐标与在所述第二坐标信息中的横坐标之和的大小,对所述文档中的各文字块进行预排序,得到新的目标文字块序列。


4.根据权利要求1或2所述的方法,其特征在于,所述针对所述目标文字块序列中的相邻文字块对,根据所述相邻文字块对中各文字块在所述第一方向上的位置大小,确定所述目标文字块序列的分界文字块,包括:
对于任意所述相邻文字块对中的第一文字块和第二文字块,判断该第一文字块在所述第一方向上的最小坐标是否小于该第二文字块在所述第一方向上的最大坐标,以及判断该第二文字块在所述第一方向上的最小坐标是否小于所述第一文字块在所述第一方向上的最大坐标;
若该第一文字块在所述第一方向上的最小坐标大于该第二文字块在所述第一方向上的最大坐标,或者,该第二文字块在所述第一方向上的最小坐标大于所述第一文字块在所述第一方向上的最大坐标,则将所述第一文字块或者所述第二文字块作为所述分界文字块。


5.一种文字块排序装置,其特征在于,包括:
获取模块,用于获取目标文字块序列,所述目标文字块序列包括多个文字块,所述多个文字块在所述目标文字块序列中,是以文字块在文档中的第一...

【专利技术属性】
技术研发人员:韩志刚宋洋于广伟
申请(专利权)人:东软集团股份有限公司
类型:发明
国别省市:辽宁;21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1