文本行识别方法及系统技术方案

技术编号:16220383 阅读:56 留言:0更新日期:2017-09-19 03:24
本发明专利技术公开了一种文本行识别方法及系统,该方法包括:接收待识别文本图像;获取所述待识别文本图像的二值图;利用所述二值图及预先构建的版面类型识别模型,得到所述待识别文本图像对应的版面类别图;根据所述版面类别图中的文本行上下类别结构关系得到文本行信息。本发明专利技术不仅可以提高文本行识别的准确性,而且通用性强,可以适应各种不同场景的变化。

Text line identification method and system

The invention discloses a method and system for identifying text line, the method includes: receiving text recognition image; two value image acquiring the detected text image; using the two value layout type recognition model and pre built, get the recognition of the text image should be the type of layout map; according to the relationship between category structure of the text line layout class diagram on the line of text information. The invention can not only improve the accuracy of text line identification, but also has strong versatility, and can adapt to the change of different scenes.

【技术实现步骤摘要】

本专利技术涉及信息处理领域,具体涉及一种文本行识别方法及系统
技术介绍
随着计算机科学与技术的发展,自动化信息处理能力和水平也得到了显著的提高。文档的电子化成为热潮,尤其是在教育领域,如试题电子化以及衍生出的机器自动阅卷等。文档中文本行的识别作为文档电子化中必不可少的步骤之一,一直受到相关技术研究人员的重视。现有主流的文本行识别方法如下:首先获取待分析文本的图像,然后对所述图像进行包括降噪、对比度增强、灰度化、二值化等的预处理,接着基于二值化图得到待分析文本中各个连通体,最后设计相应特征及规则,将同一行的连通体聚成一类,得到文本行信息。所述设计的特征如计算每个连通体像素点之间的距离,所述规则如纵坐标距离超过设定阈值的连通体聚到一类。现有的文本行识别方法需要依赖人工设定特征及规则,该方法受主观因素影响较强,且通用较差,往往只对当前设计特征和规则的场景效果较好,一旦分析场景变化,原先设计的特征及规则往往不再适用。而在现实应用中,特别是手写文档,书写多变、随意,尤其是含有数学公式的文档,情况更为复杂,采用现有的文本行识别方法效果往往不尽人意。
技术实现思路
本专利技术提供一种文本行识别方法本文档来自技高网...
文本行识别方法及系统

【技术保护点】
一种文本行识别方法,其特征在于,包括:接收待识别文本图像;获取所述待识别文本图像的二值图;利用所述二值图及预先构建的版面类型识别模型,得到所述待识别文本图像对应的版面类别图;根据所述版面类别图中的文本行上下类别结构关系得到文本行信息。

【技术特征摘要】
1.一种文本行识别方法,其特征在于,包括:接收待识别文本图像;获取所述待识别文本图像的二值图;利用所述二值图及预先构建的版面类型识别模型,得到所述待识别文本图像对应的版面类别图;根据所述版面类别图中的文本行上下类别结构关系得到文本行信息。2.根据权利要求1所述的方法,其特征在于,所述方法还包括按以下方式构建版面类型识别模型:收集大量包含文本行的图像,并标注所述图像中各像素点所属的版面类别;将每张图像的像素点及其对应的版面类别作为训练数据,训练得到版面类型识别模型。3.根据权利要求2所述的方法,其特征在于,所述版面类别包括:背景、文本、行区间、以及分式线。4.根据权利要求1至3任一项所述的方法,其特征在于,在根据所述版面类别图中的文本行上下类别结构关系得到文本行信息之前还包括:对所述版面类别图进行后处理,具体包括:检查所述版面类别图中是否有粘连行,如果有,则对所述粘连行进行分割;和/或对所述版面类别图中的断裂行进行合并。5.根据权利要求4所述的方法,其特征在于,所述检查所述版面类别图中是否有粘连行包括:将所述版面类别图二值化,得到只含有文本行像素点的二值化图;获取所述二值化图中的各连通体,并取所述连通体的外接矩形;如果所述外接矩形的高度大于设定的矩形高度阈值,则确定所述连通体为粘连行;所述对所述粘连行进行分割包括:对于所述粘连行,从最左边开始逐步向右分析,确定各粘连不确定区域;基于所述待识别文本图像的二值图获取所述不确定区域中的所有连通体;计算各连通体与所述粘连行的多行区域中各已知行的行高重叠度;根据所述行高重叠度确定各连通体所属行,实现所述粘连行的分割。6.根据权利要求5所述的方法,其特征在于,所述矩形高度阈值根据所述版面类别图中文本行高均值设定。7.根据权利要求5所述的方法,其特征在于,所述对于所述粘连行,从最左边开始逐步向右分析,确定各粘连不确定区域包括:对于所述粘连行,依照所述版面类别图从最左边开始向右逐个像素进行检查,确定已分行区域及未分行区域;在检查到未分行区域后,检查未分行区域内的文本行高度是否大于设定阈值,如果是,则开始记录当前像素点所在区域信息,直至检查到文本行高度小于或等于所述阈值,停止记录,并将记录的区域作为粘连不确定区域。8.根据权利要求5所述的方法,其特征在于,所述根据所述行高重叠度确定各连通体所属行,实现所述粘连行的分割包括:对于每个连通体计算得到的与各已知行的行高重叠度,如果其中只有一个行高重叠度大于设定的重叠度阈值,则确定该连通体属于该行高重叠度对应已知行,将该连通体合并到该已知行;如果其中有多个行高重叠度大于所述重叠度阈值,则确定所述多个行高重叠度对应的已知行是否存在明显的上下关系;如果有,则在多行的行分割区域中根据穿透代价最小的路径对所述连通体进行分割;如果没有,则将该连通体合并到最大的行高重叠度对应的已知行;如果其中没有行高重叠度大于所述重叠度阈值,则判断该连通体自身的大小是否小于设定的连通体高度阈值;如果是,则将该连通体和与其行高重叠度最大的已知行进行合并;否则,确定该连通体是单独成行。9.根据权利要求8所述的方法,其特征在于,路径的穿透代价根据所述路径所经过的像素点数及所述路径距离所述不确定区域中心线的距离来确定。10.根据权利要求4所述的方法,其特征在于,所述对所述版面类别图中的断裂行进行合并包括:从所述版面类别图的最左上角开始,对每个文本行分别计算该文本行与其右、右上、右下三个方向的文本行的行高重合度;如果计算得到的三个方向中最大行高重合度大于设定的合并重合阈值,则将所述文本与该...

【专利技术属性】
技术研发人员:吴爱红胡雨隆胡金水竺博魏思
申请(专利权)人:科大讯飞股份有限公司
类型:发明
国别省市:安徽;34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1