一种图像文本行检测方法及装置制造方法及图纸

技术编号：17389814 阅读：55 留言：0更新日期：2018-03-04 14:34

本发明专利技术公开了一种图像文本行检测方法及装置，属于计算机图像处理领域。方法包括：对输入图像进行二值化预处理，获取预处理后的二值化图像；对二值化图像中的连通域进行过滤处理，获取过滤处理后标准字体的尺寸及符合标准字体尺寸的连通域，以及对符合标准字体尺寸的连通域生成外部矩形框；按照预设比例将每个符合标准字体尺寸的连通域进行扩展生成扩展矩形框，及根据扩展矩形框对外部矩形框进行聚合处理；根据聚合处理结果进行文本行识别。从而根据外部矩形框的聚合处理结果进行文本行识别，使得在提高图像文本行检测速度的同时保证其检测精度和准确率，提高了检测效率，且实现方式简便，方便操作。

A method and device for image text line detection

The invention discloses a method and device for detecting the line of image text, which belongs to the field of computer image processing. The method includes: the input image binarization processing, obtaining two value after pretreatment of the image; on the two value image connected domain in filtering, obtain the filtered standard font size and standard size of connected domain, and connected domain to generate external rectangle with the standard font the size of the connected domain; according to a preset proportion for each standard size are extended to generate extended rectangle, and rectangle according to the expansion of external rectangle polymerization; polymerization according to the results of treatment text line recognition. So we can recognize the text row according to the result of the aggregate processing of the external rectangle box, so that we can improve the detection speed of the image text line, at the same time, ensure the accuracy and accuracy of the detection, improve the detection efficiency, and realize the way is simple and convenient.

全部详细技术资料下载

【技术实现步骤摘要】
一种图像文本行检测方法及装置
本专利技术涉及计算机图像处理领域，特别涉及一种图像文本行检测方法及装置。
技术介绍
图像中的文本行检测一直是文本图像处理的研究热点，也是OCR(光学字符识别)的最重要环节之一，由于图像中的文本部分常包含图像的重要信息，所以对图像中的文本行进行检测对于图像分析、图像信息获取具有重要作用。现有的文本行检测方法主要有传统方法和深度学习的方法。深度学习的方法适用的场景比较广泛广，识别的精度也相对较高，但是其需要大量的高质量标注过的数据和长时间的训练调参过程，且每次检测时运算量巨大，耗时久，不利于快速识别处理；而传统方法则有精度不高的问题，有较多的误报(falsepositive)，需要后处理去除。所以需要提供一种既快速又不失准确率的图像文本行检测。
技术实现思路
为了在提高图像文本行检测速度的同时保证其检测精度和准确率，提高检测效率，本专利技术实施例提供了一种图像文本行检测方法及装置。所述技术方案如下：第一方面，提供了一种图像文本行检测方法，所述方法包括：对输入图像进行二值化预处理，获取预处理后的二值化图像；对所述二值化图像中的连通域进行过滤处理...

【技术保护点】
一种图像文本行检测方法，其特征在于，所述方法包括：对输入图像进行二值化预处理，获取预处理后的二值化图像；对所述二值化图像中的连通域进行过滤处理，获取过滤处理后标准字体的尺寸及符合标准字体尺寸的连通域，以及对所述符合标准字体尺寸的连通域生成外部矩形框；按照预设比例将每个所述符合标准字体尺寸的连通域进行扩展生成扩展矩形框，及根据所述扩展矩形框对所述外部矩形框进行聚合处理；根据所述聚合处理结果进行文本行识别。

【技术特征摘要】
1.一种图像文本行检测方法，其特征在于，所述方法包括：对输入图像进行二值化预处理，获取预处理后的二值化图像；对所述二值化图像中的连通域进行过滤处理，获取过滤处理后标准字体的尺寸及符合标准字体尺寸的连通域，以及对所述符合标准字体尺寸的连通域生成外部矩形框；按照预设比例将每个所述符合标准字体尺寸的连通域进行扩展生成扩展矩形框，及根据所述扩展矩形框对所述外部矩形框进行聚合处理；根据所述聚合处理结果进行文本行识别。2.根据权利要求1所述的方法，其特征在于，所述过滤处理包括粗过滤和细过滤，所述对所述二值化图像中的连通域进行粗过滤处理包括：获取所述二值化图像中的连通域，根据预设异常阈值，过滤所述连通域中异常的连通域，所述异常阈值包括按像素设置的异常阈值或按连通域宽高比设置的异常阈值；获取粗过滤后的剩余连通域的宽高值，通过统计聚类算法对所述过滤后的剩余连通域的宽高值进行聚类，统计出现次数最多的连通域宽高值作为标准字体的尺寸。3.根据权利要求2所述的方法，其特征在于，所述对所述二值化图像中的连通域进行细过滤处理包括：以所述标准字体尺寸为标准，按照所述标准字体尺寸的宽高值的预设倍数过滤所述二值化图像中粗过滤后的剩余连通域；以及获取所述二值化图像中所述细过滤处理后的连通域。4.根据权利要求1或3所述的方法，其特征在于，所述按照预设比例将每个所述符合标准字体尺寸的连通域进行扩展生成扩展矩形框，及根据所述扩展矩形框对所述外部矩形框进行聚合处理包括：按照预设比例将每个所述符合标准字体尺寸的连通域转化为宽大于高的扩展矩形框，其中，所述扩展矩形框与其对应的所述外部矩形框中心对齐；判断两个连通域的所述扩展矩形框的IOU值(相交范围占两个连通域并集的比例)是否在预设IOU阈值范围内，若是，则将所述两个连通域的扩展矩形框对应的外部矩形框进行聚合；否则，不将所述两个连通域的扩展矩形框对应的外部矩形框进行聚合。5.根据权利要求4所述的方法，其特征在于，所述根据所述聚合处理结果进行文本行识别包括：若聚合后矩形框个数大于等于预设个数，且聚合类中矩形框中心位置坐标center(x,y)的y方差小于预设值，则确定为文本行；若聚合后矩形框小于所述预设个数，或中心位置y分布分散，则确定为不是文本行。6.一种图像文本行检测装置，其特征在于，所述装...

【专利技术属性】
技术研发人员：李宏宇，彭宇翔，
申请(专利权)人：众安信息技术服务有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人