基于改进型EAST算法的文本检测方法技术

技术编号:21090820 阅读:25 留言:0更新日期:2019-05-11 10:25
本发明专利技术涉及一种基于改进型EAST算法的文本检测方法,它包括以下步骤:S1.采用多通道全卷积网络对输入图像进行处理;S2.对map0中的像素点进行阈值化选择;S3.计算出激活像素点所预测文本框的四个顶点坐标;S4.将各激活像素点预测的文本框根据重合程度进行合并得到多边形polygon;S5.从集合C中筛选出子集合C1以及子集合C2;S6.通过子集合C1内的激活像素点计算出文本框起始端的两顶点坐标,通过子集合C2内的激活像素点计算出文本框终止端的两顶点坐标;将子集合C1得到的两顶点坐标与子集合C2得到的两顶点坐标进行合并。本发明专利技术的优点在于:可提高EAST算法对长文本的预测的准确率。

【技术实现步骤摘要】
基于改进型EAST算法的文本检测方法
本专利技术涉及一种基于改进型EAST算法的文本检测方法,该方法适用于身份证文字识别、银行卡文字识别、电子票据文字识别、印刷体文档文字识别、自然场景文字识别等OCR文字识别领域。
技术介绍
OCR(OpticalCharacterRecognition)光学字符识别是AI领域的一项重要技术,主要内容是让计算机读取图像中的文字信息。当今主流的OCR技术主要分为两步:1、文本检测,指的是定位出文本在图像中的精确位置;2、文本识别,指的是根据文本检测提供的位置信息将文本裁剪出来并加以识别。现有OCR领域,文本检测技术多如牛毛,性能良好的检测技术主要都是基于深度神经网络,它们的区别仅在于网络的结构和其他的细枝末节。目前比较流行的文本检测技术有CTPN、TextBoxes、EAST、PixelLink等,它们都有各自的优缺点,比如CTPN算法的优点是对水平文本的检测精度高,缺点是无法检测倾斜的文本;EAST文本检测算法虽然可以定位倾斜的文本,但是无法精确定位较长的文本。
技术实现思路
本专利技术的目的在于提供一种基于改进型EAST算法的文本检测方法,解决了原算法对长文本定位准确率低的问题。本专利技术的目的通过如下技术方案实现:一种基于改进型EAST算法的文本检测方法,它包括以下步骤:S1.采用多通道全卷积网络对输入图像进行处理,输出一个9通道特征图,分别为map0,map1,map2,map3,map4,map5,map6,map7,map8;S2.对map0中的像素点进行阈值化选择,将符合阈值范围的像素点选定作为激活像素点;S3.在map1-map8上分别找到激活像素点对应的坐标,并计算出激活像素点所预测文本框的四个顶点坐标;S4.将各激活像素点预测的文本框根据重合程度进行合并得到多边形polygon,多边形polygon对应的所有激活像素点组成一个集合C;S5.从集合C中筛选出靠近对应的预测文本框起始端的激活像素点形成子集合C1以及靠近对应的预测文本框终止端的激活像素点形成子集合C2;S6.通过子集合C1内的激活像素点计算出文本框起始端的两顶点坐标,通过子集合C2内的激活像素点计算出文本框终止端的两顶点坐标;将子集合C1得到的两顶点坐标与子集合C2得到的两顶点坐标进行合并,形成最终文本框的四个顶点坐标。较之现有技术而言,本专利技术的优点在于:本专利技术根据文本框中靠近起始端的像素点来预测文本框起始端的两个顶点坐标,根据文本框中靠近终止端的像素点来预测文本框终止端的两个顶点坐标,然后合并上述四个顶点坐标得到最终的预测文本框,从而提高EAST算法对长文本的预测的准确率。附图说明图1是一种基于改进型EAST算法的文本检测方法的流程图。图2是IoU值计算公式的概念演示图。图3是计算激活像素点到其预测文本框两个端部顶点的曼哈顿距离的示意图。图4是用于演示本专利技术文本检测过程的示例图。图5是对图4进行阈值化后得到的激活像素点的分布图(黑点表示激活像素点)。图6是根据图5中激活像素点计算出的预测文本框的示意图。图7是将图6中各文本框根据重合程度进行合并后的示意图。图8是对图7中多边形polygon两端激活像素点进行筛选后的示意图。图9是对图8中两子集合内所有激活像素点进行加权平均处理后的示意图。图10是本专利技术最终定位文本框的示意图。图11是原EAST文本检测技术预测图片文本框的示意图。图12是不同算法对图像文本框定位的效果对比图(左边为原EAST算法处理,右边为本专利技术处理)。具体实施方式下面结合说明书附图和实施例对本
技术实现思路
进行详细说明:本专利技术是基于EAST文本检测技术的改进,为了便于更好的理解
技术实现思路
,我们首先对EAST文本检测技术的主要原理进行阐述,EAST文本检测技术主要由以下两部分组成:1.Multi-channelFCN,多通道全卷积网络,该网络对输入图像进行处理,输出一个9通道的特征图(输出几何图为QUAD类型的EAST版本)。9通道的特征图其实就是9张图像矩阵,分别命名为map0,map1,map2,map3,map4,map5,map6,map7,map8,假设第X个图像矩阵mapX上坐标(x,y)处的值为mapX[x][y],每个像素所预测的四边形文本框的四个顶点坐标分别为v1(x1,y1),v2(x2,y2),v3(x3,y3),v4(x4,y4)。第一张图像map0是概率图,该图像上每个像素值的取值范围都是(0,1),表示该像素是文本像素的概率。其他8张图像上的坐标为(x,y)的像素点上的值分别表示概率图上坐标为(x,y)的像素点所预测的其坐标值x、y到该像素点所在的文本框的四个顶点的坐标值的x、y的偏移量。故概率图中坐标为(x,y)的像素点所预测的所在文本框的四个顶点的坐标分别为:v1(x1,y1)=v1(x+map1[x][y],y+map2[x][y])v2(x2,y2)=v2(x+map3[x][y],y+map4[x][y])v3(x3,y3)=v3(x+map5[x][y],y+map6[x][y])v4(x4,y4)=v4(x+map7[x][y],y+map8[x][y])2.Thresholding&NMS,Thresholding阈值化,对第一部分得到的概率图map0中的像素点进行阈值化选择,因为概率图map0中的概率值越大就越可能是文本像素,所以需要把概率值大的像素筛选出来,比如设置阈值为0.9,则概率图map0中概率值大于等于0.9的像素点被选定作为激活的文本像素点,然后根据该像素点的坐标找到对应其他8张图像上的坐标值,并计算得到该像素点对应的文本框的四个顶点坐标,由于一个实际文本框中有很多像素点,这些像素点共同预测一个文本框时,会出现很多重合的文本框,原算法通过NMS算法来将这些重合的文本框整合为一个文本框。上述EAST算法的缺陷是其全卷积神经网络的感受野有限,无法通过像素点来精确预测相对于图像尺寸距离较远的文本框顶点的坐标,因此无法精确定位长文本,但是EAST算法能通过某个像素点来精确预测距离较近的文本框顶点的坐标。上述特点是我们通过实验发现的,图11为EAST算法对输入图像进行文本框定位的结果,图像中的圆圈表示预测文本框的像素点所在位置,矩形表示该像素点所预测的文本框,由图可知像素点对距离比较近的四边形顶点坐标的预测非常准确,而对距离比较远的四边形顶点坐标的预测比较差。根据这一特点,本专利技术重新设计了一个文本框回归算法来替代原来的NMS算法。本专利技术的主要思想是只根据文本框的靠近左端的像素点来预测左端的两个顶点的坐标,并且只根据文本框的靠近右端的像素点来预测右端的两个顶点的坐标,然后合并左右两端像素所预测的文本框的相对的两个顶点得到最终的预测文本框。算法步骤如下:S1.采用多通道全卷积网络对输入图像进行处理,输出一个9通道特征图,分别为map0,map1,map2,map3,map4,map5,map6,map7,map8。S2.对map0中的像素点进行阈值化选择,将符合阈值范围的像素点选定作为激活像素点。S3.在map1-map8上分别找到激活像素点对应的坐标,并计算出激活像素点所预测文本框的四个顶点坐标。S4.将各激活像素点预测的文本框根本文档来自技高网
...

【技术保护点】
1.一种基于改进型EAST算法的文本检测方法,其特征在于,它包括以下步骤:S1.采用多通道全卷积网络对输入图像进行处理,输出一个9通道特征图,分别为map0,map1,map2,map3,map4,map5,map6,map7,map8;S2.对map0中的像素点进行阈值化选择,将符合阈值范围的像素点选定作为激活像素点;S3.在map1‑map8上分别找到激活像素点对应的坐标,并计算出激活像素点所预测文本框的四个顶点坐标;S4.将各激活像素点预测的文本框根据重合程度进行合并得到多边形polygon,多边形polygon对应的所有激活像素点组成一个集合C;S5.从集合C中筛选出靠近对应的预测文本框起始端的激活像素点形成子集合C1以及靠近对应的预测文本框终止端的激活像素点形成子集合C2;S6.通过子集合C1内的激活像素点计算出文本框起始端的两顶点坐标,通过子集合C2内的激活像素点计算出文本框终止端的两顶点坐标;将子集合C1得到的两顶点坐标与子集合C2得到的两顶点坐标进行合并,形成最终文本框的四个顶点坐标。

【技术特征摘要】
1.一种基于改进型EAST算法的文本检测方法,其特征在于,它包括以下步骤:S1.采用多通道全卷积网络对输入图像进行处理,输出一个9通道特征图,分别为map0,map1,map2,map3,map4,map5,map6,map7,map8;S2.对map0中的像素点进行阈值化选择,将符合阈值范围的像素点选定作为激活像素点;S3.在map1-map8上分别找到激活像素点对应的坐标,并计算出激活像素点所预测文本框的四个顶点坐标;S4.将各激活像素点预测的文本框根据重合程度进行合并得到多边形polygon,多边形polygon对应的所有激活像素点组成一个集合C;S5.从集合C中筛选出靠近对应的预测文本框起始端的激活像素点形成子集合C1以及靠近对应的预测文本框终止端的激活像素点形成子集合C2;S6.通过子集合C1内的激活像素点计算出文本框起始端的两顶点坐标,通过子集合C2内的激活像素点计算出文本框终止端的两顶点坐标;将子集合C1得到的两顶点坐标与子集合C2得到的两顶点坐标进行合并,形成最终文本框的四个顶点坐标。2.根据权利要求1所述的基于改进型EAST算法的文本检测方法,其特征在于:步骤S4中,计算两激活像素点预测文本框的IoU值,当IoU值大于指定阈值时,将两预测文本框进行合并,并将对应的激活像素点归入集合C内。3.根据权利要求2所述的基于改进型EAST算法的文本检测方法,其特征在于:步骤S4中,IoU指定阈值的取值范围为(0.3,1)。4.根据权利要求1所述的基于改进型EAST算法的文本检测方法,其特征在于:步骤S5中,求集合C中每个激活像素点到其预测文本框起始端两顶点的曼哈顿距离之和dist1与集合C中每个激活像素点到其预测文本框终止端两顶点的曼哈顿距离之和dist2的比值ra...

【专利技术属性】
技术研发人员:史天永翁增仁
申请(专利权)人:福建博思软件股份有限公司
类型:发明
国别省市:福建,35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1