【技术实现步骤摘要】
基于图像字符区域感知的端到端文本检测及识别方法
本专利技术涉及一种计算机视觉
,具体为一种基于图像字符区域感知的端到端文本检测及识别方法。
技术介绍
OCR是计算机视觉领域的经典问题,长久以来,一直受到学术界和工业界的持续关注。在工业界,Google、Microsoft、Amazon等大型互联网公司以及云从科技等人工智能创业公司,都在OCR技术上耕耘多年。OCR(OpticalCharacterRecognition,光学字符识别)是指对输入图像进行分析识别处理,获取图像中文字信息的过程,具有广泛的应用场景。而自然场景中的OCR技术不需要针对特殊场景进行定制,可以识别任意场景图片中的文字。但相较于传统OCR,自然场景OCR中的各种商品、布景或自然场景图片中的文本检测与识别面临着复杂背景干扰、文字的模糊与退化、不可预测的光照、字体的多样性、垂直文本、倾斜文本等众多挑战。自然图像文本识别一直被认为是两个连续但独立的问题:文字检测和文字识别。由于深度神经网络的成功,这两个人物都取得了很大的进展。文字识 ...
【技术保护点】
1.一种基于图像字符区域感知的端到端文本检测识别方法,其特征在于包括以下步骤:/n1)数据准备:在两种数据集上进行实验,一种是包含单个字符包围框标注的SynthText80k;另一种是真实场景数据集,包含ICDAR 2015,CTW1500;/n2)在上述两种数据集上进行特征提取和融合,得到语义更丰富特征;/n3)将两种数据集中图像部分进行分割,找到图像中文本的位置;/n4)利用步骤3)中图像中文本的位置,得到每一个字符位置对应的特征;/n5)根据字符特征进行卷积识别,对每一个特征识别分类后,得到识别概率
【技术特征摘要】
1.一种基于图像字符区域感知的端到端文本检测识别方法,其特征在于包括以下步骤:
1)数据准备:在两种数据集上进行实验,一种是包含单个字符包围框标注的SynthText80k;另一种是真实场景数据集,包含ICDAR2015,CTW1500;
2)在上述两种数据集上进行特征提取和融合,得到语义更丰富特征;
3)将两种数据集中图像部分进行分割,找到图像中文本的位置;
4)利用步骤3)中图像中文本的位置,得到每一个字符位置对应的特征;
5)根据字符特征进行卷积识别,对每一个特征识别分类后,得到识别概率n表示每一个TextBox里面包含的字符的个数;
6)完成神经网络端到端训练策略,实现神经网络弱监督学习的识别反馈。
2.根据权利要求1所述的基于图像字符区域感知的端到端文本检测识别方法,其特征在于:步骤2)中两种数据集上进行特征提取和融合具体为:
步骤201)主干网络backbone使用VGG16-BN网络,分别输入两种数据集图像,通过backbone的逐层卷积,得到中间层特征,与原图相比步长分别为{4,8,16,32},得到原始图像二分之一大小的特征图;
步骤202)将步骤201)得到的特征图输入到空间注意力模块进行计算,计算公式见公式(1),空间注意力由最大池化、平均池化和n*n卷积操作组成,得到的空间注意力结果和特征图进行元素级相乘;
其中,σ表示sigmoid激活函数,Fnxn为3x3卷积层,表示通道连接操作,Pmax为最大池化,Pavg为平均池化,Asag(.)为空间注意力计算结果,Xi为第i层特征,最后经过注意力引导的特征可以计算如下:
其中表示元素级相乘,得到特征提取的最终特征图为F。
3.根据权利要求1所述的基于图像字符区域感知的端到端文本检测识别方法,其特征在于:步骤3)将两种数据集中图像部分进行分割具体为:
301)利用步骤2)产生的特征图F进行图像分割,预测当前像素点的位置是文本的概率,生成两个通道的特征图,即表示每一个字符中心的预测的高斯热图region_score和表示几个字符之间的联系的关系图link_score;
302)根据热图region_score,进行膨胀操作和腐蚀操作后,使用分水岭算法得到每一个字符的包围框CharBox,利用link_score将各个CharBox进行归类,得到归类到一个单词或一行的包围框TextBox,对k+1个属于同一Textbox的CharBox中心坐标(x0,y0),…,(xk,yk)利用插值公式(3)得到排列方式:
其中对多项式R求导,得到每一个位置字符CharBox的角度,根据得到的角度旋转CharBox,得到最终每个拥有实际角度的CharBox,其中x为多项式未知数,xi和xj为k个CharBox中心坐标的两个不同点的横坐标。
4.根据权利要求1所述的基于图像字符区域感知的端到端文本检测识别方法,其特征在于:步骤4)中利用步骤3)中图像中文本的位置,得到每一个字符位置对应的特征具体为:
根据步骤3)得到的CharBox使用透视变换,得到每一个字符对应在...
【专利技术属性】
技术研发人员:杜权,刘兴宇,徐萍,
申请(专利权)人:沈阳雅译网络技术有限公司,
类型:发明
国别省市:辽宁;21
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。