一种文本行区域检测方法及装置制造方法及图纸

技术编号:23344694 阅读:36 留言:0更新日期:2020-02-15 04:19
本发明专利技术公开了一种文本行区域检测方法及装置,获取待检测的图像,基于卷积神经网络模型获取待检测图像对应的特征图像,根据设定的矩形窗口的大小按设定的滑动步长遍历特征图像,在每个窗口位置确定矩形窗口内图像的类别信息,获取表征字符的像素点的矩形窗口的位置信息,基于循环神经网络模型以及获取的包括表征字符的像素点的矩形窗口的位置信息,确定文本行区域,从而能够将文本行区域作为一个整体检测出来,提高文本行区域的检测效率。

A text line area detection method and device

【技术实现步骤摘要】
一种文本行区域检测方法及装置
本专利技术涉及图像处理领域,尤其涉及一种文本行区域检测方法及装置。
技术介绍
图像中的文本行检测一直是文本图像处理的研究热点,也是光学字符识别(OpticalCharacterRecognition,OCR)的重要环节之一。由于图像中的文本部分常包含图像的重要信息,因此对图像中的文本行进行检测对于图像分析以及图像信息的获取具有重要作用。目前,对图像中的文本行区域检测通常是设定可容纳一个字符的矩形框,通过该矩形框对图像中的区域进行检测,当检测到的区域内的字符与周围的颜色对比度比较大时,可确定检测到一个字符,通过这种方式逐个检测单个字符,由于该检测过程中是通过逐个字符的方式进行检测,使得检测过程比较繁琐,时间较长,进而使得检测效率较低。
技术实现思路
本专利技术的目的是提供一种文本行区域检测方法及装置,以解决现有技术中逐个检测单个字符,使得检测效率较低的问题。本专利技术的目的是通过以下技术方案实现的:第一方面,本专利技术提供一种文本行区域检测方法,包括:获取待检测的图像;基于卷积神经网络模型获取所述待检测图像对应的特征图像;根据设定的矩形窗口的大小按设定的滑动步长遍历所述特征图像,在每个窗口位置确定矩形窗口内图像的类别信息;其中,所述类别信息用于表征矩形窗口内是否包括表征字符的像素点;获取包括表征字符的像素点的矩形窗口的位置信息;可选的,基于循环神经网络模型,以及所述获取的包括表征字符的像素点的矩形窗口的位置信息,确定文本行区域。所述基于循环神经网络模型,以及所述获取的包括表征字符的像素点的矩形窗口的位置信息,确定文本行区域,包括:基于循环神经网络模型中的深度长短期记忆网络BLSTM层将第一方向上相同的矩形窗口合并;其中,所述第一方向为用于表征像素点位置的水平坐标方向或者垂直坐标方向;基于循环神经网络模型中的全连接层,确定第二方向上相邻的N个矩形窗口,并将N个相邻的矩形窗口合并作为文本行区域,所述第二方向为与所述第一方向垂直的方向,所述N为正整数。可选的,所述将N个相邻的矩形窗口合并作为文本行区域,包括:利用文本线构造算法,将所述N个相邻的矩形窗口进行合并,得到文本行区域。可选的,所述表征字符的像素点的矩形窗口的位置信息,包括:矩形窗口的垂直坐标信息以及水平坐标信息。第二方面,本专利技术提供一种文本行区域检测装置,包括:获取单元,用于获取待检测的图像,并基于卷积神经网络模型获取待检测图像对应的特征图像;处理单元,用于根据设定的矩形窗口的大小按设定的滑动步长遍历所述特征图像,在每个窗口位置确定矩形窗口内图像的类别信息;其中,所述类别信息用于表征矩形窗口内是否包括表征字符的像素点;获取单元,还用于获取包括表征字符的像素点的矩形窗口的位置信息;处理单元,还用于基于循环神经网络模型,以及获取单元获取到的包括表征字符的像素点的矩形窗口的位置信息,确定文本行区域。可选的,所述处理单元具体用于按如下方式基于循环神经网络模型,以及获取单元获取到的包括表征字符的像素点的矩形窗口的位置信息,确定文本行区域:基于循环神经网络模型中的深度长短期记忆网络BLSTM层将第一方向上相同的矩形窗口合并;其中,所述第一方向为用于表征像素点位置的水平坐标方向或者垂直坐标方向;基于循环神经网络模型中的全连接层,确定第二方向上相邻的N个矩形窗口,并将N个相邻的矩形窗口合并作为文本行区域,所述第二方向为与所述第一方向垂直的方向,所述N为正整数。可选的,所述处理单元具体用于按如下方式将N个相邻的矩形窗口合并作为文本行区域:利用文本线构造算法,将所述N个相邻的矩形窗口进行合并,得到文本行区域。可选的,所述表征字符的像素点的矩形窗口的位置信息,包括:矩形窗口的垂直坐标信息以及水平坐标信息。第三方面,本专利技术提供一种文本行区域的检测装置,包括:存储器,用于存储程序指令;处理器,用于调用所述存储器中存储的程序指令,按照获得的程序执行第一方面所述的方法。第四方面,本专利技术提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,当所述计算机指令在计算机上运行时,使得计算机执行第一方面所述的方法。附图说明图1为本申请实施例提供的一种文本行区域检测方法流程图;图2为本申请实施例提供的一种文本行区域检测方法示意图;图3为本申请实施例提供的一种文本行区域检测装置的结构框图;图4为本申请实施例提供的一种文本行区域检测装置的示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,并不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。通常,图像中的文本信息包含图像的重要信息,检测识别图像中的文本信息对于图像处理领域尤其重要。目前,在对图像中的文本信息进行识别时,通常是采用提取出图像中的单个字符,利用逐一字符的识别方式对图像中的文本信息进行识别,当文本信息的不同字符之间差异较大或者不同字符之间的距离较远时,将文本信息的不同字符作为一个整体检测时相对于单个字符的检测难度较大。有鉴于此,本申请实施例提供了一种文本行区域检测方法及装置,利用卷积神经网络(ConvolutionNeuralNetworks,CNN)算法以及循环神经网络(RecurrentNeuralNetworks,RNN)算法对图像中的文本行区域整体进行检测,提高了文本行区域的检测效率。需要理解的是,在下文的描述中,“第一”、“第二”等词汇,仅用于区分描述的目的,而不能理解为指示或暗示相对重要性,也不能理解为指示或暗示顺序。图1所示为本申请实施例提供的一种文本行区域检测方法流程图,图1所示方法的执行主体可以为一种文本行区域的检测装置,参阅图1所示,该方法包括:S101:获取待检测的图像。S102:基于卷积神经网络模型获取待检测图像对应的特征图像。S103:利用设定大小的矩形窗口按照设定的步长遍历特征图像,确定每个窗口位置处矩形窗口内图像的类别信息。本申请实施例中,该矩形窗口内图像的类别信息用于表征矩形窗口内是否包括表征字符的像素点。S104:获取包括表征字符的像素点的矩形窗口的位置信息。S105:基于循环神经网络模型,以及获取的包括表征字符的像素点的矩形窗口的位置信息,确定文本行区域。本申请实施例中,通过将CNN以及RNN相结合,将图像中的文本行区域作为整体检测出来,相对于现有技术单个检测图像中的字符,提高了检测效率。以下将具体对上述步骤进行详细说明。本申请实施例中,可先利用卷积神经网络模型对待检测的图像进行卷本文档来自技高网...

【技术保护点】
1.一种文本行区域检测方法,其特征在于,包括:/n获取待检测的图像;/n基于卷积神经网络模型获取所述待检测图像对应的特征图像;/n根据设定的矩形窗口的大小按设定的滑动步长遍历所述特征图像,在每个窗口位置确定矩形窗口内图像的类别信息;/n其中,所述类别信息用于表征矩形窗口内是否包括表征字符的像素点;/n获取包括表征字符的像素点的矩形窗口的位置信息;/n基于循环神经网络模型,以及所述根据获取的包括表征字符的像素点的矩形窗口的位置信息,确定文本行区域。/n

【技术特征摘要】
1.一种文本行区域检测方法,其特征在于,包括:
获取待检测的图像;
基于卷积神经网络模型获取所述待检测图像对应的特征图像;
根据设定的矩形窗口的大小按设定的滑动步长遍历所述特征图像,在每个窗口位置确定矩形窗口内图像的类别信息;
其中,所述类别信息用于表征矩形窗口内是否包括表征字符的像素点;
获取包括表征字符的像素点的矩形窗口的位置信息;
基于循环神经网络模型,以及所述根据获取的包括表征字符的像素点的矩形窗口的位置信息,确定文本行区域。


2.如权利要求1所述的方法,其特征在于,所述基于循环神经网络模型,以及所述获取的包括表征字符的像素点的矩形窗口的位置信息,确定文本行区域,包括:
基于循环神经网络模型中的深度长短期记忆网络BLSTM层将第一方向上相同的矩形窗口合并;
其中,所述第一方向为用于表征像素点位置的水平坐标方向或者垂直坐标方向;
基于循环神经网络模型中的全连接层,确定第二方向上相邻的N个矩形窗口,并将N个相邻的矩形窗口合并作为文本行区域,所述第二方向为与所述第一方向垂直的方向,所述N为正整数。


3.如权利要求2所述的方法,其特征在于,所述将N个相邻的矩形窗口合并作为文本行区域,包括:
利用文本线构造算法,将所述N个相邻的矩形窗口进行合并,得到文本行区域。


4.如权利要求1或2所述的方法,其特征在于,所述表征字符的像素点的矩形窗口的位置信息,包括:
矩形窗口的垂直坐标信息以及水平坐标信息。


5.一种文本行区域检测装置,其特征在于,包括:
获取单元,用于获取待检测的图像,并基于卷积神经网络模型获取待检测图像对应的特征图像;
处理单元,用于根据设定的矩形窗口的大小按设定的滑动步长遍历所述特征图像,在每个窗口位置确...

【专利技术属性】
技术研发人员:万成涛谭泽汉陈彦宇谭龙田马雅奇
申请(专利权)人:珠海格力电器股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1