版面分析方法、装置、设备及存储介质制造方法及图纸

技术编号:26891602 阅读:39 留言:0更新日期:2020-12-29 16:10
本发明专利技术实施例提供了一种版面分析方法、装置、设备及存储介质,在进行版面分析时,首先检测文本块区域和标号区域,进而基于所述标号区域和所述文本块区域的位置,聚类合并所述标号区域和与所述标号区域相关联的文本块区域,得到的与所述标号对应的文本单元区域仅包括文本块区域、标号区域以及这些区域之间的区域,而不会包括文本单元之间的空白区域,从而提高了版面分析方法的准确度。

【技术实现步骤摘要】
版面分析方法、装置、设备及存储介质
本专利技术实施例涉及计算机领域,尤其涉及一种版面分析方法、装置、设备及存储介质。
技术介绍
文本图像电子化是一种将文本图像中的文本信息提取为电子信息的技术,在如今高速发展的信息化时代下,文本图像电子化能够显著提高信息的传播和使用效率。传统的文本图像识别主要包括两个阶段:版面分析阶段和文本识别阶段;其中,版面分析阶段用于通过不同的策略和方法,分析文本中的各个文本单元(如普通文本中的段落、试卷文本中的试题等)的位置及其类别,文本识别阶段则识别各个文本单元所包含的文本,从而完成整篇文本的电子化。其中,版面分析阶段中,文本单元可以反映文本图像中的字符和字符串的成组关系,从而支持文本识别阶段的语义分析功能。在文本图像记录的文本中,具有用于标记文本单元的标号的场景下,通常基于标号的位置进行版面分析。例如,在文本图像为试卷图像时,以题号所在行的位置为起始位置,以下一题号所在行的位置为终点位置,得到的区域即为题目所在的区域,对应的位置信息即为该题目的位置信息。然而,这种版面分析方法的准确度有待提高。<本文档来自技高网...

【技术保护点】
1.一种版面分析方法,其特征在于,包括:/n获取文本图像,所述文本图像中记录的文本包括标号,所述标号用于标记文本的各文本单元;/n检测得到所述文本图像中的文本块区域和标号区域,所述文本块区域为所述文本图像中含有一行或一列字符的区域;/n基于所述标号区域和所述文本块区域的位置,聚类合并所述标号区域和与所述标号区域相关联的文本块区域,得到与所述标号对应的文本单元区域;/n返回所述文本图像的版面分析结果,所述版面分析结果包括所述文本单元区域的位置信息。/n

【技术特征摘要】
1.一种版面分析方法,其特征在于,包括:
获取文本图像,所述文本图像中记录的文本包括标号,所述标号用于标记文本的各文本单元;
检测得到所述文本图像中的文本块区域和标号区域,所述文本块区域为所述文本图像中含有一行或一列字符的区域;
基于所述标号区域和所述文本块区域的位置,聚类合并所述标号区域和与所述标号区域相关联的文本块区域,得到与所述标号对应的文本单元区域;
返回所述文本图像的版面分析结果,所述版面分析结果包括所述文本单元区域的位置信息。


2.如权利要求1所述的版面分析方法,其特征在于,所述基于所述标号区域和所述文本块区域的位置,聚类合并所述标号区域和与所述标号区域相关联的文本块区域,得到与所述标号对应的文本单元区域的步骤中,使所述文本单元区域中的相邻文本块区域的间距小于预设距离。


3.如权利要求1所述的版面分析方法,其特征在于,所述基于所述标号区域和所述文本块区域的位置,聚类合并与所述标号区域相关联的文本块区域,包括:
基于所述标号区域和所述文本块区域的位置,形成有序区域块集合,其中,所述有序区域块集合中,所述标号区域和所述文本块区域基于所述标号区域和所述文本块区域的位置排序;
提取所述有序区域块集合中的标号区域,形成聚类种子集合,其中,所述聚类种子集合中包括所述标号区域在所述有序区域块集合中的序号信息;
在所述有序区域块集合中,对所述聚类种子集合中的标号区域进行聚类合并,形成与所述标号区域对应的文本单元区域。


4.如权利要求3所述的版面分析方法,其特征在于,基于所述标号区域和文本块区域的位置,形成有序区域块集合,包括:
合并所述标号区域和文本块区域,得到区域块集合;
基于所述标号区域和所述文本块区域的位置,对所述区域块集合中的标号区域和文本块区域进行排序,得到有序区域块集合。


5.如权利要求4所述的版面分析方法,其特征在于,所述基于所述标号区域和所述文本块区域的位置,对所述区域块集合中的标号区域和文本块区域进行排序,得到有序区域块集合,包括:
基于所述标号区域和所述文本块区域的位置,对所述区域块集合中的标号区域和文本块区域进行排序;
生成所述标号区域和所述文本块区域对应的序号信息和区域类型信息,其中,所述区域类型包括标号区域和文本块区域;
形成有序区域块集合,所述有序区域块集合中包括排序后的标号区域和文本块区域,以及,所述标号区域和所述文本块区域对应的序号信息和区域类型信息。


6.如权利要求3所述的版面分析方法,其特征在于,所述在所述有序区域块集合中,对所述聚类种子集合中的标号区域进行聚类合并,包括:
在所述有序区域块集合中,合并至少部分区域重合的标号区域和文本块区域,得到种子文本块区域;
基于预设的位置关系,聚类合并所述种子文本块区域和与所述种子文本块区域相邻的文本块区域作为种子文本块区域,直至与所述种子文本块区域相邻的文本块区域满足聚类终止条件;
其中,所述聚类终止条件至少包括满足所述位置关系的,与所述种子文本块区域相邻的文本块区域为另一种子文本块区域。


7.如权利要求6所述的版面分析方法,其特征在于,所述返回所述文本图像的版面分析结果,包括:
当所述种子文本块区域相邻的文本块区域满足聚类终止条件时,以所述种子文本块区域作为文本单元块区域;
返回所...

【专利技术属性】
技术研发人员:宁亚光李兵李毅飒
申请(专利权)人:北京易真学思教育科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1