一种文本行区域检测方法及装置制造方法及图纸

技术编号：23344694 阅读：36 留言：0更新日期：2020-02-15 04:19

本发明专利技术公开了一种文本行区域检测方法及装置，获取待检测的图像，基于卷积神经网络模型获取待检测图像对应的特征图像，根据设定的矩形窗口的大小按设定的滑动步长遍历特征图像，在每个窗口位置确定矩形窗口内图像的类别信息，获取表征字符的像素点的矩形窗口的位置信息，基于循环神经网络模型以及获取的包括表征字符的像素点的矩形窗口的位置信息，确定文本行区域，从而能够将文本行区域作为一个整体检测出来，提高文本行区域的检测效率。

A text line area detection method and device

全部详细技术资料下载

【技术实现步骤摘要】
一种文本行区域检测方法及装置
本专利技术涉及图像处理领域，尤其涉及一种文本行区域检测方法及装置。
技术介绍
图像中的文本行检测一直是文本图像处理的研究热点，也是光学字符识别(OpticalCharacterRecognition，OCR)的重要环节之一。由于图像中的文本部分常包含图像的重要信息，因此对图像中的文本行进行检测对于图像分析以及图像信息的获取具有重要作用。目前，对图像中的文本行区域检测通常是设定可容纳一个字符的矩形框，通过该矩形框对图像中的区域进行检测，当检测到的区域内的字符与周围的颜色对比度比较大时，可确定检测到一个字符，通过这种方式逐个检测单个字符，由于该检测过程中是通过逐个字符的方式进行检测，使得检测过程比较繁琐，时间较长，进而使得检测效率较低。
技术实现思路
本专利技术的目的是提供一种文本行区域检测方法及装置，以解决现有技术中逐个检测单个字符，使得检测效率较低的问题。本专利技术的目的是通过以下技术方案实现的：第一方面，本专利技术提供一种文本行区域检测方法，包括：获取待检测的图像；基于卷积神经网络模型获取所述待检测图像对应的特征图像；根据设定的矩形窗口的大小按设定的滑动步长遍历所述特征图像，在每个窗口位置确定矩形窗口内图像的类别信息；其中，所述类别信息用于表征矩形窗口内是否包括表征字符的像素点；获取包括表征字符的像素点的矩形窗口的位置信息；可选的，基于循环神经网络模型，以及所述获取的包括表征字符的像素点的矩形窗...

【技术保护点】
1.一种文本行区域检测方法，其特征在于，包括：/n获取待检测的图像；/n基于卷积神经网络模型获取所述待检测图像对应的特征图像；/n根据设定的矩形窗口的大小按设定的滑动步长遍历所述特征图像，在每个窗口位置确定矩形窗口内图像的类别信息；/n其中，所述类别信息用于表征矩形窗口内是否包括表征字符的像素点；/n获取包括表征字符的像素点的矩形窗口的位置信息；/n基于循环神经网络模型，以及所述根据获取的包括表征字符的像素点的矩形窗口的位置信息，确定文本行区域。/n

【技术特征摘要】
1.一种文本行区域检测方法，其特征在于，包括：
获取待检测的图像；
基于卷积神经网络模型获取所述待检测图像对应的特征图像；
根据设定的矩形窗口的大小按设定的滑动步长遍历所述特征图像，在每个窗口位置确定矩形窗口内图像的类别信息；
其中，所述类别信息用于表征矩形窗口内是否包括表征字符的像素点；
获取包括表征字符的像素点的矩形窗口的位置信息；
基于循环神经网络模型，以及所述根据获取的包括表征字符的像素点的矩形窗口的位置信息，确定文本行区域。

2.如权利要求1所述的方法，其特征在于，所述基于循环神经网络模型，以及所述获取的包括表征字符的像素点的矩形窗口的位置信息，确定文本行区域，包括：
基于循环神经网络模型中的深度长短期记忆网络BLSTM层将第一方向上相同的矩形窗口合并；
其中，所述第一方向为用于表征像素点位置的水平坐标方向或者垂直坐标方向；
基于循环神经网络模型中的全连接层，确定第二方向上相邻的N个矩形窗口，并将N个相邻的矩形窗口合并作为文本行区域，所述第二方向为与所述第一方向垂直的方向，所述N为正整数。

3.如权利要求2所述的方法，其特征在于，所述将N个相邻的矩形窗口合并作为文本行区域，包括：
利用文本线构造算法，将所述N个相邻的矩形窗口进行合并，得到文本行区域。

4.如权利要求1或2所述的方法，其特征在于，所述表征字符的像素点的矩形窗口的位置信息，包括：
矩形窗口的垂直坐标信息以及水平坐标信息。

5.一种文本行区域检测装置，其特征在于，包括：
获取单元，用于获取待检测的图像，并基于卷积神经网络模型获取待检测图像对应的特征图像；
处理单元，用于根据设定的矩形窗口的大小按设定的滑动步长遍历所述特征图像，在每个窗口位置确...

【专利技术属性】
技术研发人员：万成涛，谭泽汉，陈彦宇，谭龙田，马雅奇，
申请(专利权)人：珠海格力电器股份有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人