This application discloses a text line extraction method and device. The method includes: forming candidate text boxes containing characters by detecting characters in document images, then aggregating candidate text boxes into one or more target text areas, which include at least one candidate text box and the characters in the at least one candidate text box belong to documents. At least one text line of the image is extracted, and each text line in the target text area is finally extracted. It can be seen that this application aggregates candidate text boxes of document images into target text areas by aggregating candidate text boxes, and then extracts each text line from the target text areas without setting rules based on prior knowledge such as color and size to define which candidate text boxes can be merged into text lines. Therefore, this application extracts text lines from the target text areas. The method not only improves the accuracy of text line extraction results, but also improves the detection efficiency.
【技术实现步骤摘要】
一种文本行提取方法及装置
本申请涉及图像处理
,尤其涉及一种文本行提取方法及装置。
技术介绍
随着信息技术和大数据产业的爆发,海量的图像数据以数字的形式存储起来,并在互联网上进行分发与传播等,由于其包含大量有效的字符信息,使得其能够广泛地应用在人们日常生活中的很多实际场景中,例如车牌检测,基于内容的图像搜索、分类、推荐、过滤,手机拍照文档识别和机器人自动导航等。其中,高精度的文本行提取技术,对提高这些领域的效果和效率起着举足轻重的作用,因此也得到了人们越来越多的研究和关注。然而,由于图像中的字符在色彩、字体、尺寸等方面的多样化,使得文本行提取任务变得十分困难。现有的文本行提取方法,大多基于一些规则进行提取,主要是通过设置各种阈值,将满足条件的相邻候选文字框进行合并,从而形成最终的文本行。但是,对于不同的文本图像,字符的大小、尺寸、排列方向等千差万别,导致规则匹配计算难以适配所有的情况,从而直接影响了文本行的提取效果和提取效率,即,文本行的提取结果往往不够准确且提取效率较低。
技术实现思路
本申请实施例的主要目的在于提供一种文本行提取方法及装置,能够提高文本行的提取结果的准确性、且提高了提取效率。本申请实施例提供了一种文本行提取方法,包括:通过对文档图像中的字符进行检测,形成包含字符的各个候选文字框;使各个候选文字框聚合成一或多个目标文本区域,所述目标文本区域包括至少一个候选文字框且所述至少一个候选文字框中的字符属于所述文档图像的至少一个文本行;提取所述目标文本区域中的文本行。可选的,所述使各个候选文字框聚合成一或多个目标文本区域,包括:使每一候选文字框与 ...
【技术保护点】
1.一种文本行提取方法,其特征在于,包括:通过对文档图像中的字符进行检测,形成包含字符的各个候选文字框;使各个候选文字框聚合成一或多个目标文本区域,所述目标文本区域包括至少一个候选文字框且所述至少一个候选文字框中的字符属于所述文档图像的至少一个文本行;提取所述目标文本区域中的文本行。
【技术特征摘要】
1.一种文本行提取方法,其特征在于,包括:通过对文档图像中的字符进行检测,形成包含字符的各个候选文字框;使各个候选文字框聚合成一或多个目标文本区域,所述目标文本区域包括至少一个候选文字框且所述至少一个候选文字框中的字符属于所述文档图像的至少一个文本行;提取所述目标文本区域中的文本行。2.根据权利要求1所述的方法,其特征在于,所述使各个候选文字框聚合成一或多个目标文本区域,包括:使每一候选文字框与至少一个邻近的候选文字框,通过无向的连接线进行连接;通过将各个候选文字框之间的各个连接线中的至少一条连接线打断,形成一或多个目标文本区域,所述目标文本区域包括具有连接关系的一组候选文字框。3.根据权利要求2所述的方法,其特征在于,所述使每一候选文字框与至少一个邻近的候选文字框,通过无向的连接线进行连接,包括:对于每一候选文字框,选择与所述候选文字框邻近的M个候选文字框,作为M个邻近文字框,M≥1;确定所述候选文字框的M个邻近文字框分别对应的距离度量值,所述距离度量值用于度量所述候选文字框与对应邻近文字框之间的距离;从确定的M个距离度量值中选择小于距离阈值的各个距离度量值;将选择的各个距离度量值对应的各个邻近文字框与所述候选文字框,通过无向的连接线进行连接。4.根据权利要求3所述的方法,其特征在于,所述确定所述候选文字框的M个邻近文字框分别对应的距离度量值,包括:对于M个邻近文字框中的每一邻近文字框,根据所述邻近文字框与所述候选文字框的中心点之间的水平距离和垂直距离,确定所述邻近文字框对应的距离度量值。5.根据权利要求3所述的方法,其特征在于,所述确定所述候选文字框的M个邻近文字框分别对应的距离度量值,包括:对于M个邻近文字框中的每一邻近文字框,根据所述邻近文字框与所述候选文字框的中心点之间的水平距离和垂直距离,以及所述邻近文字框对应的第一参数、第二参数、第三参数和第四参数中的至少一项,确定所述邻近文字框对应的距离度量值;其中,所述第一参数是根据所述候选文字框与所述邻近文字框的文本框高度生成的参数;所述第二参数是根据所述候选文字框与所述邻近文字框的中心点连线形成的倾斜角度生成的参数;所述第三参数是根据所述候选文字框与所述邻近文字框在竖直方向上的重叠距离生成的参数;所述第四参数是根据所述候选文字框与所述邻近文字框在水平方向上的重叠距离生成的参数。6.根据权利要求3所述的方法,其特征在于,按照下述方式生成所述距离阈值:将各个候选文字框对应的M个距离度量值分别取均值,得到各个候选文字框分别对应的度量均值;将各个候选文字框对应的各个度量均值取均值,得到所述距离阈值。7.根据权利要求2所述的方法,其特征在于,所述通过将各个候选文字框之间的各个连接线中的至少一条连接线打断,形成一或多个目标文本区域,包括:找到所述文档图像中位于最左侧的N个候选文字框,N≥1;打断所述N个候选文字框中的每一候选文字框上的至少一根连接线,形成一或多个目标文本区域。8.根据权利要求2所述的方法,其特征在于,所述通过将各个候选文字框之间的各个连接线中的至少一条连接线打断,形成一或多个目标文本区域,包括:找到所述文档图像中位于最左侧的N个候选文字框,N≥1;打断所述N个候选文字框中的每一候选文字框上的一根连接线,形成一或多个初始文本区域;对于每一初始文本区域,将所述初始文本区域中各个候选文字框之间的各个连接线的倾斜角度进行平均,得到一个平均角度;计算所述初始文本区域中各个候选文字框之间的各个连接线的倾斜角度与所述平均角度之间的偏差值,将大于预设偏差阈值的偏差值对应的连接线打断,形成一或多个目标文本区域。9.根据权利要求1所述的方法,其特征在于,所述提取所述目标文本区域中的文本行,包括:将所述目标文本区域转化为能量图;在所述能量图中,找出所述目标文本区域中的每一文本行对应的能量路径;使所述能量路径穿过的各个候选文字框形成一个文本行。10.根据权利要求9所述的方法,其特征在于,所述找出所述目标文本区域中的每一文本行对应的能量路径,包括:计算所述能量图中每一行的各个像素点在对应行中的累积能量值;根据所述能量图中每一行的最后一个像素点对应的累积能量值,找出所述目标文本区域中的每一文本行对应的能量路径。11.根据权利要求10所述的方法,其特征在于,所述计算所述能量图中每一行的各个像素点在对应行中的累积能量值,包括:根据所述能量图中当前行的当前像素点对应的第一能量值、第二能量值、第三能量值、第四能量值,计算所述当前像素点对应的累积能量值;其中,所述第一能量值为所述当前像素点对应的能量值,所述第二能量值为所述当前像素点的前一像素点对应的累积能量值,所述第三能量值为所述前一像素点的上面像素点对应的累积能量值,所述第四能量值为所述前一像素点的下面像素点对应的累积能量值。12.根据权利要求1至11任一项所述的方法,其特征在于,所述方法还包括:当检测得到所述文档图像中的各个文本行后,滤除各个文本行中的非文本行。13.一种文本行提取装置,其特征在于,包括:文字框形成单元,用于通过对文档图像中的字符进行检测,形成包含字符的各个...
【专利技术属性】
技术研发人员:常欢,崔瑞莲,胡金水,殷兵,刘聪,
申请(专利权)人:科大讯飞股份有限公司,
类型:发明
国别省市:安徽,34
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。