一种文本行提取方法及装置制造方法及图纸

技术编号:20918205 阅读:21 留言:0更新日期:2019-04-20 10:02
本申请公开了一种文本行提取方法及装置,该方法包括:通过对文档图像中的字符进行检测,形成包含字符的各个候选文字框,再使各个候选文字框聚合成一或多个目标文本区域,该目标文本区域包括至少一个候选文字框且该至少一个候选文字框中的字符属于文档图像的至少一个文本行,最后提取出目标文本区域中的每一文本行。可见,本申请通过候选文字框聚合的方式,将文档图像的各个候选文字框聚合成目标文本区域,再从该目标文本区域中提取出每一文本行,而无需根据颜色、尺寸等先验知识设置各种规则来定义哪些候选文字框可以被合并成文本行,因此,本申请的这种文本行提取方式,不但提高了文本行的提取结果的准确性、还提高了检测效率。

A Method and Device for Text Line Extraction

This application discloses a text line extraction method and device. The method includes: forming candidate text boxes containing characters by detecting characters in document images, then aggregating candidate text boxes into one or more target text areas, which include at least one candidate text box and the characters in the at least one candidate text box belong to documents. At least one text line of the image is extracted, and each text line in the target text area is finally extracted. It can be seen that this application aggregates candidate text boxes of document images into target text areas by aggregating candidate text boxes, and then extracts each text line from the target text areas without setting rules based on prior knowledge such as color and size to define which candidate text boxes can be merged into text lines. Therefore, this application extracts text lines from the target text areas. The method not only improves the accuracy of text line extraction results, but also improves the detection efficiency.

【技术实现步骤摘要】
一种文本行提取方法及装置
本申请涉及图像处理
,尤其涉及一种文本行提取方法及装置。
技术介绍
随着信息技术和大数据产业的爆发,海量的图像数据以数字的形式存储起来,并在互联网上进行分发与传播等,由于其包含大量有效的字符信息,使得其能够广泛地应用在人们日常生活中的很多实际场景中,例如车牌检测,基于内容的图像搜索、分类、推荐、过滤,手机拍照文档识别和机器人自动导航等。其中,高精度的文本行提取技术,对提高这些领域的效果和效率起着举足轻重的作用,因此也得到了人们越来越多的研究和关注。然而,由于图像中的字符在色彩、字体、尺寸等方面的多样化,使得文本行提取任务变得十分困难。现有的文本行提取方法,大多基于一些规则进行提取,主要是通过设置各种阈值,将满足条件的相邻候选文字框进行合并,从而形成最终的文本行。但是,对于不同的文本图像,字符的大小、尺寸、排列方向等千差万别,导致规则匹配计算难以适配所有的情况,从而直接影响了文本行的提取效果和提取效率,即,文本行的提取结果往往不够准确且提取效率较低。
技术实现思路
本申请实施例的主要目的在于提供一种文本行提取方法及装置,能够提高文本行的提取结果的准确性、且提高了提取效率。本申请实施例提供了一种文本行提取方法,包括:通过对文档图像中的字符进行检测,形成包含字符的各个候选文字框;使各个候选文字框聚合成一或多个目标文本区域,所述目标文本区域包括至少一个候选文字框且所述至少一个候选文字框中的字符属于所述文档图像的至少一个文本行;提取所述目标文本区域中的文本行。可选的,所述使各个候选文字框聚合成一或多个目标文本区域,包括:使每一候选文字框与至少一个邻近的候选文字框,通过无向的连接线进行连接;通过将各个候选文字框之间的各个连接线中的至少一条连接线打断,形成一或多个目标文本区域,所述目标文本区域包括具有连接关系的一组候选文字框。可选的,所述使每一候选文字框与至少一个邻近的候选文字框,通过无向的连接线进行连接,包括:对于每一候选文字框,选择与所述候选文字框邻近的M个候选文字框,作为M个邻近文字框,M≥1;确定所述候选文字框的M个邻近文字框分别对应的距离度量值,所述距离度量值用于度量所述候选文字框与对应邻近文字框之间的距离;从确定的M个距离度量值中选择小于距离阈值的各个距离度量值;将选择的各个距离度量值对应的各个邻近文字框与所述候选文字框,通过无向的连接线进行连接。可选的,所述确定所述候选文字框的M个邻近文字框分别对应的距离度量值,包括:对于M个邻近文字框中的每一邻近文字框,根据所述邻近文字框与所述候选文字框的中心点之间的水平距离和垂直距离,确定所述邻近文字框对应的距离度量值。可选的,所述确定所述候选文字框的M个邻近文字框分别对应的距离度量值,包括:对于M个邻近文字框中的每一邻近文字框,根据所述邻近文字框与所述候选文字框的中心点之间的水平距离和垂直距离,以及所述邻近文字框对应的第一参数、第二参数、第三参数和第四参数中的至少一项,确定所述邻近文字框对应的距离度量值;其中,所述第一参数是根据所述候选文字框与所述邻近文字框的文本框高度生成的参数;所述第二参数是根据所述候选文字框与所述邻近文字框的中心点连线形成的倾斜角度生成的参数;所述第三参数是根据所述候选文字框与所述邻近文字框在竖直方向上的重叠距离生成的参数;所述第四参数是根据所述候选文字框与所述邻近文字框在水平方向上的重叠距离生成的参数。可选的,按照下述方式生成所述距离阈值:将各个候选文字框对应的M个距离度量值分别取均值,得到各个候选文字框分别对应的度量均值;将各个候选文字框对应的各个度量均值取均值,得到所述距离阈值。可选的,所述通过将各个候选文字框之间的各个连接线中的至少一条连接线打断,形成一或多个目标文本区域,包括:找到所述文档图像中位于最左侧的N个候选文字框,N≥1;打断所述N个候选文字框中的每一候选文字框上的至少一根连接线,形成一或多个目标文本区域。可选的,所述通过将各个候选文字框之间的各个连接线中的至少一条连接线打断,形成一或多个目标文本区域,包括:找到所述文档图像中位于最左侧的N个候选文字框,N≥1;打断所述N个候选文字框中的每一候选文字框上的一根连接线,形成一或多个初始文本区域;对于每一初始文本区域,将所述初始文本区域中各个候选文字框之间的各个连接线的倾斜角度进行平均,得到一个平均角度;计算所述初始文本区域中各个候选文字框之间的各个连接线的倾斜角度与所述平均角度之间的偏差值,将大于预设偏差阈值的偏差值对应的连接线打断,形成一或多个目标文本区域。可选的,所述提取所述目标文本区域中的文本行,包括:将所述目标文本区域转化为能量图;在所述能量图中,找出所述目标文本区域中的每一文本行对应的能量路径;使所述能量路径穿过的各个候选文字框形成一个文本行。可选的,所述找出所述目标文本区域中的每一文本行对应的能量路径,包括:计算所述能量图中每一行的各个像素点在对应行中的累积能量值;根据所述能量图中每一行的最后一个像素点对应的累积能量值,找出所述目标文本区域中的每一文本行对应的能量路径。可选的,所述计算所述能量图中每一行的各个像素点在对应行中的累积能量值,包括:根据所述能量图中当前行的当前像素点对应的第一能量值、第二能量值、第三能量值、第四能量值,计算所述当前像素点对应的累积能量值;其中,所述第一能量值为所述当前像素点对应的能量值,所述第二能量值为所述当前像素点的前一像素点对应的累积能量值,所述第三能量值为所述前一像素点的上面像素点对应的累积能量值,所述第四能量值为所述前一像素点的下面像素点对应的累积能量值。可选的,所述方法还包括:当检测得到所述文档图像中的各个文本行后,滤除各个文本行中的非文本行。本申请实施例还提供了一种文本行提取装置,包括:文字框形成单元,用于通过对文档图像中的字符进行检测,形成包含字符的各个候选文字框;文本区域合成单元,用于使各个候选文字框聚合成一或多个目标文本区域,所述目标文本区域包括至少一个候选文字框且所述至少一个候选文字框中的字符属于所述文档图像的至少一个文本行;文本行提取单元,用于提取所述目标文本区域中的文本行。可选的,所述文本区域合成单元包括:文字框连接子单元,用于使每一候选文字框与至少一个邻近的候选文字框,通过无向的连接线进行连接;文本区域合成子单元,用于通过将各个候选文字框之间的各个连接线中的至少一条连接线打断,形成一或多个目标文本区域,所述目标文本区域包括具有连接关系的一组候选文字框。可选的,所述文字框连接子单元包括:文字框选择子单元,用于对于每一候选文字框,选择与所述候选文字框邻近的M个候选文字框,作为M个邻近文字框,M≥1;度量值确定子单元,用于确定所述候选文字框的M个邻近文字框分别对应的距离度量值,所述距离度量值用于度量所述候选文字框与对应邻近文字框之间的距离;度量值选择子单元,用于从确定的M个距离度量值中选择小于距离阈值的各个距离度量值;文字框确定子单元,用于将选择的各个距离度量值对应的各个邻近文字框与所述候选文字框,通过无向的连接线进行连接。可选的,所述度量值确定子单元具体用于:对于M个邻近文字框中的每一邻近文字框,根据所述邻近文字框与所述候选文字框的中心点之间的水平距离和垂直距离,确定所述邻本文档来自技高网...

【技术保护点】
1.一种文本行提取方法,其特征在于,包括:通过对文档图像中的字符进行检测,形成包含字符的各个候选文字框;使各个候选文字框聚合成一或多个目标文本区域,所述目标文本区域包括至少一个候选文字框且所述至少一个候选文字框中的字符属于所述文档图像的至少一个文本行;提取所述目标文本区域中的文本行。

【技术特征摘要】
1.一种文本行提取方法,其特征在于,包括:通过对文档图像中的字符进行检测,形成包含字符的各个候选文字框;使各个候选文字框聚合成一或多个目标文本区域,所述目标文本区域包括至少一个候选文字框且所述至少一个候选文字框中的字符属于所述文档图像的至少一个文本行;提取所述目标文本区域中的文本行。2.根据权利要求1所述的方法,其特征在于,所述使各个候选文字框聚合成一或多个目标文本区域,包括:使每一候选文字框与至少一个邻近的候选文字框,通过无向的连接线进行连接;通过将各个候选文字框之间的各个连接线中的至少一条连接线打断,形成一或多个目标文本区域,所述目标文本区域包括具有连接关系的一组候选文字框。3.根据权利要求2所述的方法,其特征在于,所述使每一候选文字框与至少一个邻近的候选文字框,通过无向的连接线进行连接,包括:对于每一候选文字框,选择与所述候选文字框邻近的M个候选文字框,作为M个邻近文字框,M≥1;确定所述候选文字框的M个邻近文字框分别对应的距离度量值,所述距离度量值用于度量所述候选文字框与对应邻近文字框之间的距离;从确定的M个距离度量值中选择小于距离阈值的各个距离度量值;将选择的各个距离度量值对应的各个邻近文字框与所述候选文字框,通过无向的连接线进行连接。4.根据权利要求3所述的方法,其特征在于,所述确定所述候选文字框的M个邻近文字框分别对应的距离度量值,包括:对于M个邻近文字框中的每一邻近文字框,根据所述邻近文字框与所述候选文字框的中心点之间的水平距离和垂直距离,确定所述邻近文字框对应的距离度量值。5.根据权利要求3所述的方法,其特征在于,所述确定所述候选文字框的M个邻近文字框分别对应的距离度量值,包括:对于M个邻近文字框中的每一邻近文字框,根据所述邻近文字框与所述候选文字框的中心点之间的水平距离和垂直距离,以及所述邻近文字框对应的第一参数、第二参数、第三参数和第四参数中的至少一项,确定所述邻近文字框对应的距离度量值;其中,所述第一参数是根据所述候选文字框与所述邻近文字框的文本框高度生成的参数;所述第二参数是根据所述候选文字框与所述邻近文字框的中心点连线形成的倾斜角度生成的参数;所述第三参数是根据所述候选文字框与所述邻近文字框在竖直方向上的重叠距离生成的参数;所述第四参数是根据所述候选文字框与所述邻近文字框在水平方向上的重叠距离生成的参数。6.根据权利要求3所述的方法,其特征在于,按照下述方式生成所述距离阈值:将各个候选文字框对应的M个距离度量值分别取均值,得到各个候选文字框分别对应的度量均值;将各个候选文字框对应的各个度量均值取均值,得到所述距离阈值。7.根据权利要求2所述的方法,其特征在于,所述通过将各个候选文字框之间的各个连接线中的至少一条连接线打断,形成一或多个目标文本区域,包括:找到所述文档图像中位于最左侧的N个候选文字框,N≥1;打断所述N个候选文字框中的每一候选文字框上的至少一根连接线,形成一或多个目标文本区域。8.根据权利要求2所述的方法,其特征在于,所述通过将各个候选文字框之间的各个连接线中的至少一条连接线打断,形成一或多个目标文本区域,包括:找到所述文档图像中位于最左侧的N个候选文字框,N≥1;打断所述N个候选文字框中的每一候选文字框上的一根连接线,形成一或多个初始文本区域;对于每一初始文本区域,将所述初始文本区域中各个候选文字框之间的各个连接线的倾斜角度进行平均,得到一个平均角度;计算所述初始文本区域中各个候选文字框之间的各个连接线的倾斜角度与所述平均角度之间的偏差值,将大于预设偏差阈值的偏差值对应的连接线打断,形成一或多个目标文本区域。9.根据权利要求1所述的方法,其特征在于,所述提取所述目标文本区域中的文本行,包括:将所述目标文本区域转化为能量图;在所述能量图中,找出所述目标文本区域中的每一文本行对应的能量路径;使所述能量路径穿过的各个候选文字框形成一个文本行。10.根据权利要求9所述的方法,其特征在于,所述找出所述目标文本区域中的每一文本行对应的能量路径,包括:计算所述能量图中每一行的各个像素点在对应行中的累积能量值;根据所述能量图中每一行的最后一个像素点对应的累积能量值,找出所述目标文本区域中的每一文本行对应的能量路径。11.根据权利要求10所述的方法,其特征在于,所述计算所述能量图中每一行的各个像素点在对应行中的累积能量值,包括:根据所述能量图中当前行的当前像素点对应的第一能量值、第二能量值、第三能量值、第四能量值,计算所述当前像素点对应的累积能量值;其中,所述第一能量值为所述当前像素点对应的能量值,所述第二能量值为所述当前像素点的前一像素点对应的累积能量值,所述第三能量值为所述前一像素点的上面像素点对应的累积能量值,所述第四能量值为所述前一像素点的下面像素点对应的累积能量值。12.根据权利要求1至11任一项所述的方法,其特征在于,所述方法还包括:当检测得到所述文档图像中的各个文本行后,滤除各个文本行中的非文本行。13.一种文本行提取装置,其特征在于,包括:文字框形成单元,用于通过对文档图像中的字符进行检测,形成包含字符的各个...

【专利技术属性】
技术研发人员:常欢崔瑞莲胡金水殷兵刘聪
申请(专利权)人:科大讯飞股份有限公司
类型:发明
国别省市:安徽,34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1