一种带有文本方向校正的英文文本检测方法技术

技术编号:19141793 阅读:22 留言:0更新日期:2018-10-13 08:55
本发明专利技术属于图像处理技术领域,具体为一种带有文本方向校正的英文文本检测方法;所述方法包括:分别对英文文本图像各个通道的进行最大稳定极值区域检测,得出候选文本区域;建立基于卷积神经网络模型的分类器,过滤错误的候选文本区域,获得初步文本区域;利用双层文本分组算法将所述初步文本区域分组;将分组后的初步文本区域进行方向校正,从而获得校正文本;本发明专利技术采用一种增强的多通道MSER模型:以得到更精细的文本区域;引入并行SPP‑CNN分类器来更好地区分文本区域和非文本区域,可以处理任意大小的图像,且可在多尺度下提取池特征,从而可以通过源图像的多层空间信息来了解更多的特征;本发明专利技术可以处理略微倾斜的场景文本。

An English text detection method with text orientation correction

The invention belongs to the field of image processing technology, and is specifically an English text detection method with text direction correction. The method comprises: detecting the maximum stable extremum region of each channel of English text image to obtain the candidate text region, establishing a classifier based on convolution neural network model, and filtering. An error candidate text region is used to obtain a preliminary text region; the preliminary text region is grouped by a two-layer text grouping algorithm; the preliminary text region after grouping is directionally corrected to obtain a corrected text; an enhanced multi-channel MSER model is adopted to obtain a more refined text region; and an introduction is made. Parallel SPP_CNN classifier can better distinguish text area from non-text area, can process any size of image, and can extract pool features in multi-scale, so that more features can be learned through multi-layer spatial information of source image; the invention can process slightly skewed scene text.

【技术实现步骤摘要】
一种带有文本方向校正的英文文本检测方法
本专利技术属于图像处理
,具体为一种带有文本方向校正的英文文本检测方法。
技术介绍
自然场景图像中的文本具有准确、丰富的信息,这对于图像分析、基于图像的翻译、图像搜索等具有重要意义。在过去的20年里,研究人员提出了一些在自然场景图像中检测文本的方法。有许多基于内容的多媒体理解应用,如自动视觉分类、图像检索、辅助导航、多语言翻译、对象识别和面向消费者的应用。场景文本检测面临的关键问题是:(1)文档图像中的文本具有常规字体,相似颜色,均匀大小和均匀排列,但即使在同一场景中,自然场景中的文本也可能具有不同的字体,颜色,比例和方向。(2)自然场景图像的背景可能非常复杂。标志、栅栏、砖块和草地难以与真实文本区分开来,因此容易造成混淆和错误。(3)场景文字图像中的其他干扰因素。如不均匀照明,模糊,半透明效应等。研究人员提出了许多方法来检测自然场景图像中的文本,并且有两种主要方法。基于纹理的方法,将文本视为一种特殊类型的纹理,并使用它们的纹理属性,如局部强度、滤波器响应和小波系数来区分图像的文本区域和非文本区域。通常这些方法的计算量很大,因为要扫描所有位置和尺度。此外,这些方法主要处理横向文本,对旋转和缩放非常敏感;基于组件的方法,将文本视为连通组件,首先通过各种方法(如颜色聚类或极端区域提取)提取文本,然后使用手动设计的规则或自动训练的分类器对非文本组件进行过滤。通常,基于组件的方法更有效,因为要处理的组件数量相对较少。另外,这些方法对旋转,缩放和字体都不敏感。检测候选文本区域(CandidateTextRegion,记为CTR)的传统方法有最大稳定极值区域(MaximallyStableExtremalRegions,记为MSER),该方法对于图像的仿射变化具有很强的鲁棒性,可以有效地提取图像中的文本区域,后有学者改进了MSER的提取算法,使算法的时间复杂度达到线性时间。这些方法按照区分文本区域和非文本区域的规则或特征,从而将文本区域和非文本区域区别开来,虽然这些方法能够检测出文本,但缺少对英文文本的校正,且对倾斜文本的区分效果并不好,识别出的文本会因为单词的倾斜而存在严重分离。
技术实现思路
有鉴于此,本专利技术提出了一种带有文本方向校正的英文文本检测方法,能够有效的识别出文本,并将识别出倾斜文本进行校正,具体包括以下步骤:S1、分别对英文文本图像的锐化图像各个通道进行最大稳定极值区域检测,从图像中提取MSER作为文本候选;得出候选文本区域;S2、建立基于卷积神经网络模型的分类器,提取出候选文本区域的特征;利用softmax函数根据候选文本区域的特征,将候选文本区域分为文本类区域和非文本类区域;过滤非文本类区域,获得初步文本区域,即检测出英文文本;S3、利用双层文本分组算法将所述初步文本区域分组;S4、将分组后的初步文本区域进行方向校正,从而实现英文文本的校正。进一步的,所述通道包括:红色通道、绿色通道、蓝色通道、色调通道、饱和度通道、明度通道以及灰通道。进一步的,所述建立基于卷积神经网络模型的分类器,提取出候选文本区域的特征包括:分别根据分类器中的五层架构获得候选文本区域的第一特征以及通过跨层获得候选文本区域的第二特征,其中,五层架构包括依次相连的第一卷积层,最大池化层、第二卷积层、金字塔池化层以及全连接层;跨层表示第一卷积层到全连接层。进一步的,利用第一层架构中的第一卷积核对候选文本区域进行第一次滤波;将第一次滤波后的候选文本区域在第二层架构中进行最大池化;利用第三层架构中的第二卷积核,对最大池化后的候选文本区域进行第二次滤波;对第二次滤波后的候选文本区域,在第四层架构中进行利用金字塔池化;对金字塔池化后的候选文本区域在第五层架构中进行全连接,从而获得候选文本区域的第一特征。进一步的,利用手动添加的特征,将第一卷积核对候选文本区域进行第一次滤波;将滤波后的候选文本区域按照手动添加的特征进行全连接,从而获得候选文本区域的第二特征。进一步的,所述手动添加的特征包括:高宽比、紧密性、笔画宽度面积比、局部对比度和边界关键点。进一步的,所述局部对比度的计算公式为:其中,lc表示局部对比度;Ri表示红色通道的第i个像素;Gi表示绿色通道的第i个像素;Bi表示蓝色通道的第i个像素;n表示MSER区域的像素总个数,k表示边界关键点的个数。进一步的,所述边界关键点的获取方式为:构建二进制图像;迭代所述二进制图像的所有像素;计算出轮廓点;使用道格拉斯-普克算法压缩轮廓点,获得边界关键点具体包括:将属于最大稳定极值区域内像素的灰度值设置为255;将属于最大稳定极值区域外,且属于最大稳定极值区域的最小外接矩形区域内像素的灰度值设置为0;如果像素点(x,y)的像素值p(x,y)=255,且在p(x+1,y),p(x-1,y),p(x,y+1),p(x,y-1)中有一个值为0,则像素p(x,y)属于轮廓点;使用道格拉斯-普克算法压缩轮廓点,通过压缩后的剩余轮廓点是边界关键点。进一步的,所述利用双层文本分组算法将所述初步文本区域分组包括:将初步文本区域分别进行垂直分组和水平分组;所述垂直分组具体包括如下:获取第n个初步文本区域中像素为255的最小Y轴坐标bn;获取第n+1个初步文本区域中像素为255的最大Y轴坐标tn+1;获取第n+1个初步文本区域的高度hn+1;计算高度差如果高度差dn,n+1大于高度阈值;则将两个初步文本区域划分为相同的类,即属于同一文本行;如果高度差dn,n+1小于或等于高度阈值,则两个初步文本区域不是同一个类,第n+1个初步文本区域被视为新类,并且新文本行在Y轴方向被拆分;所述水平分组具体步骤包括:获取X轴上同一文本行中两个相邻初步文本区域之间的距离差Δd;距离差Δd包括:同一单词中字母之间的距离d1、单词之间的距离d2;根据系数来表示文本行中所有字母的平均宽度,根据宽度阈值来分开单词;获取字母宽度和间隔的比值如果字母宽度和间隔的比值dh小于宽度阈值,那么这两个相邻初步文本区域属于同一类,即同一个单词,如果字母宽度和间隔的比值dh大于或等于宽度阈值,这两个相邻初步文本区域不属于同一类,即这两个区域不属于同一个单词,将后一个初步文本区域作为一个新单词的开始。进一步的,所述将分组后的初步文本区域进行方向校正包括:S401、使用坐标旋转公式分别将分组后的初步文本区域以顺时针旋转α度;设定初始值i=1,α=-30°;S402、通过模型匹配过程,将错误引入的分组框过滤;获得第i个待定校正文本区域;S403、当i<6时,i=i+1,α=α+10°,返回步骤S401;当i=6时,将第1个待定校正文本至第6个待定校正文本叠加,从而获得最终校正文本。进一步的,所述坐标旋转公式包括:x'=xcosθ+ysinθy'=ycosθ-xsinθ其中,x表示像素点的横坐标;y表示像素点的纵坐标;θ表示旋转角度阈值;x'表示旋转后像素点的横坐标;y'表示旋转后像素点的纵坐标;所述分组框包括:倾斜分组框以及长间隔分组框;所述倾斜分组框包含一个字母;所述长间隔分组框包含的字母位于两端。本专利技术的有益效果:本专利技术具有如下优点:采用一种增强的多通道MSER模型:从R、G、B、H、S、V和灰本文档来自技高网
...

【技术保护点】
1.一种带有文本方向校正的英文文本检测方法,其特征在于,包括以下步骤:S1、分别对英文文本图像的锐化图像各个通道进行最大稳定极值区域检测,从图像中提取最大稳定极值区域;得出候选文本区域;S2、建立基于卷积神经网络模型的分类器,提取出候选文本区域的特征;利用softmax函数根据候选文本区域的特征,将候选文本区域分为文本类区域和非文本类区域;过滤非文本类区域,获得初步文本区域,即检测出英文文本;S3、利用双层文本分组算法将所述初步文本区域分组;S4、将分组后的初步文本区域进行方向校正,从而实现英文文本的校正。

【技术特征摘要】
1.一种带有文本方向校正的英文文本检测方法,其特征在于,包括以下步骤:S1、分别对英文文本图像的锐化图像各个通道进行最大稳定极值区域检测,从图像中提取最大稳定极值区域;得出候选文本区域;S2、建立基于卷积神经网络模型的分类器,提取出候选文本区域的特征;利用softmax函数根据候选文本区域的特征,将候选文本区域分为文本类区域和非文本类区域;过滤非文本类区域,获得初步文本区域,即检测出英文文本;S3、利用双层文本分组算法将所述初步文本区域分组;S4、将分组后的初步文本区域进行方向校正,从而实现英文文本的校正。2.根据权利要求1所述的一种带有文本方向校正的英文文本检测方法,其特征在于,所述通道包括:红色通道、绿色通道、蓝色通道、色调通道、饱和度通道、明度通道以及灰通道。3.根据权利要求1所述的一种带有文本方向校正的英文文本检测方法,其特征在于,所述建立基于卷积神经网络模型的分类器,提取出候选文本区域的特征包括:分别根据分类器中的五层架构获得候选文本区域的第一特征以及通过跨层获得候选文本区域的第二特征,其中,五层架构包括依次相连的第一卷积层,最大池化层、第二卷积层、金字塔池化层以及全连接层;跨层表示第一卷积层到全连接层。4.根据权利要求3所述的一种带有文本方向校正的英文文本检测方法,其特征在于,所述第一特征的获取方式为:利用第一层架构中的第一卷积核对候选文本区域进行第一次滤波;将第一次滤波后的候选文本区域在第二层架构中进行最大池化;利用第三层架构中的第二卷积核,对最大池化后的候选文本区域进行第二次滤波;对第二次滤波后的候选文本区域,在第四层架构中进行利用金字塔池化;对金字塔池化后的候选文本区域在第五层架构中进行全连接,从而提取出候选文本区域的第一特征。5.根据权利要求3所述的一种带有文本方向校正的英文文本检测方法,其特征在于,所述第二特征的获取方式为:利用手动添加的特征,将第一卷积核对候选文本区域进行第一次滤波;将滤波后的候选文本区域按照手动添加的特征进行全连接,从而提取出候选文本区域的第二特征。6.根据权利要求5所述的一种带有文本方向校正的英文文本检测方法,其特征在于,所述手动添加的特征包括:高宽比、紧密性、笔画宽度面积比、局部对比度和边界关键点。7...

【专利技术属性】
技术研发人员:代劲王族尹航
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:重庆,50

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1