一种带有文本方向校正的英文文本检测方法技术

技术编号：19141793 阅读：22 留言：0更新日期：2018-10-13 08:55

本发明专利技术属于图像处理技术领域，具体为一种带有文本方向校正的英文文本检测方法；所述方法包括：分别对英文文本图像各个通道的进行最大稳定极值区域检测，得出候选文本区域；建立基于卷积神经网络模型的分类器，过滤错误的候选文本区域，获得初步文本区域；利用双层文本分组算法将所述初步文本区域分组；将分组后的初步文本区域进行方向校正，从而获得校正文本；本发明专利技术采用一种增强的多通道MSER模型：以得到更精细的文本区域；引入并行SPP‑CNN分类器来更好地区分文本区域和非文本区域，可以处理任意大小的图像，且可在多尺度下提取池特征，从而可以通过源图像的多层空间信息来了解更多的特征；本发明专利技术可以处理略微倾斜的场景文本。

An English text detection method with text orientation correction

The invention belongs to the field of image processing technology, and is specifically an English text detection method with text direction correction. The method comprises: detecting the maximum stable extremum region of each channel of English text image to obtain the candidate text region, establishing a classifier based on convolution neural network model, and filtering. An error candidate text region is used to obtain a preliminary text region; the preliminary text region is grouped by a two-layer text grouping algorithm; the preliminary text region after grouping is directionally corrected to obtain a corrected text; an enhanced multi-channel MSER model is adopted to obtain a more refined text region; and an introduction is made. Parallel SPP_CNN classifier can better distinguish text area from non-text area, can process any size of image, and can extract pool features in multi-scale, so that more features can be learned through multi-layer spatial information of source image; the invention can process slightly skewed scene text.

全部详细技术资料下载

【技术实现步骤摘要】
一种带有文本方向校正的英文文本检测方法
本专利技术属于图像处理
，具体为一种带有文本方向校正的英文文本检测方法。
技术介绍
自然场景图像中的文本具有准确、丰富的信息，这对于图像分析、基于图像的翻译、图像搜索等具有重要意义。在过去的20年里，研究人员提出了一些在自然场景图像中检测文本的方法。有许多基于内容的多媒体理解应用，如自动视觉分类、图像检索、辅助导航、多语言翻译、对象识别和面向消费者的应用。场景文本检测面临的关键问题是:(1)文档图像中的文本具有常规字体，相似颜色，均匀大小和均匀排列，但即使在同一场景中，自然场景中的文本也可能具有不同的字体，颜色，比例和方向。(2)自然场景图像的背景可能非常复杂。标志、栅栏、砖块和草地难以与真实文本区分开来，因此容易造成混淆和错误。(3)场景文字图像中的其他干扰因素。如不均匀照明，模糊，半透明效应等。研究人员提出了许多方法来检测自然场景图像中的文本，并且有两种主要方法。基于纹理的方法，将文本视为一种特殊类型的纹理，并使用它们的纹理属性，如局部强度、滤波器响应和小波系数来区分图像的文本区域和非文本区域。通常这些方法的计算量很大，因为要扫描所有位置和尺度。此外，这些方法主要处理横向文本，对旋转和缩放非常敏感；基于组件的方法，将文本视为连通组件，首先通过各种方法(如颜色聚类或极端区域提取)提取文本，然后使用手动设计的规则或自动训练的分类器对非文本组件进行过滤。通常，基于组件的方法更有效，因为要处理的组件数量相对较少。另外，这些方法对旋转，缩放和字体都不敏感。检测候选文本区域(CandidateTextRegion，记为...

【技术保护点】
1.一种带有文本方向校正的英文文本检测方法，其特征在于，包括以下步骤：S1、分别对英文文本图像的锐化图像各个通道进行最大稳定极值区域检测，从图像中提取最大稳定极值区域；得出候选文本区域；S2、建立基于卷积神经网络模型的分类器，提取出候选文本区域的特征；利用softmax函数根据候选文本区域的特征，将候选文本区域分为文本类区域和非文本类区域；过滤非文本类区域，获得初步文本区域，即检测出英文文本；S3、利用双层文本分组算法将所述初步文本区域分组；S4、将分组后的初步文本区域进行方向校正，从而实现英文文本的校正。

【技术特征摘要】
1.一种带有文本方向校正的英文文本检测方法，其特征在于，包括以下步骤：S1、分别对英文文本图像的锐化图像各个通道进行最大稳定极值区域检测，从图像中提取最大稳定极值区域；得出候选文本区域；S2、建立基于卷积神经网络模型的分类器，提取出候选文本区域的特征；利用softmax函数根据候选文本区域的特征，将候选文本区域分为文本类区域和非文本类区域；过滤非文本类区域，获得初步文本区域，即检测出英文文本；S3、利用双层文本分组算法将所述初步文本区域分组；S4、将分组后的初步文本区域进行方向校正，从而实现英文文本的校正。2.根据权利要求1所述的一种带有文本方向校正的英文文本检测方法，其特征在于，所述通道包括：红色通道、绿色通道、蓝色通道、色调通道、饱和度通道、明度通道以及灰通道。3.根据权利要求1所述的一种带有文本方向校正的英文文本检测方法，其特征在于，所述建立基于卷积神经网络模型的分类器，提取出候选文本区域的特征包括：分别根据分类器中的五层架构获得候选文本区域的第一特征以及通过跨层获得候选文本区域的第二特征，其中，五层架构包括依次相连的第一卷积层，最大池化层、第二卷积层、金字塔池化层以及全连接层；跨层表示第一卷积层到全连接层。4.根据权利要求3所述的一种带有文本方向校正的英文文本检测方法，其特征在于，所述第一特征的获取方式为：利用第一层架构中的第一卷积核对候选文本区域进行第一次滤波；将第一次滤波后的候选文本区域在第二层架构中进行最大池化；利用第三层架构中的第二卷积核，对最大池化后的候选文本区域进行第二次滤波；对第二次滤波后的候选文本区域，在第四层架构中进行利用金字塔池化；对金字塔池化后的候选文本区域在第五层架构中进行全连接，从而提取出候选文本区域的第一特征。5.根据权利要求3所述的一种带有文本方向校正的英文文本检测方法，其特征在于，所述第二特征的获取方式为：利用手动添加的特征，将第一卷积核对候选文本区域进行第一次滤波；将滤波后的候选文本区域按照手动添加的特征进行全连接，从而提取出候选文本区域的第二特征。6.根据权利要求5所述的一种带有文本方向校正的英文文本检测方法，其特征在于，所述手动添加的特征包括：高宽比、紧密性、笔画宽度面积比、局部对比度和边界关键点。7...

【专利技术属性】
技术研发人员：代劲，王族，尹航，
申请(专利权)人：重庆邮电大学，
类型：发明
国别省市：重庆,50

全部详细技术资料下载我是这个专利的主人