一种端到端文本检测和识别方法技术

技术编号:28296556 阅读:26 留言:0更新日期:2021-04-30 16:21
本发明专利技术属于视觉识别的技术领域,公开了一种端到端文本检测和识别方法,利用对输入文本图像的语义分割结果过滤掉背景像素,生成预置文本框集,再对其中的预置文本框边缘上的多个基准点进行分类和回归预测,检测出目标文本框,然后利用尺度变换和空间变换对输入文本图像进行特征提取,并使用特征相似性约束策略对识别器进行训练,最后利用训练好的识别器对目标文本框中的字符序列进行识别。本发明专利技术对自然场景图像中的文本进行端到端的检测和识别,在考虑到模型效率的同时,提升了模型对弯曲文本和低分辨率文本的鲁棒性,具有创新和实际应用价值。

【技术实现步骤摘要】
一种端到端文本检测和识别方法
本专利技术涉及视觉识别的
,尤其涉及一种端到端文本检测和识别方法。
技术介绍
文字在人们日常生活中扮演着举足轻重的角色,它们以交通指示牌、海报广告语和包装袋上产品描述等形式为人们传递信息和知识。随着手机、车载相机等带有摄像功能的设备的普及,越来越多的文字以图像形式采集、传播和存储,从图像中自动检测和识别文字在智能交通、图像检测以及场景理解等领域具有广阔的应用前景,因此,相关研究在计算机视觉领域一直备受关注。近年来,基于深度学习的网络模型在声(语音识别)、图(计算机视觉)、文(自然语言处理)三大领域独占鳌头,成为各相关任务的主要解决方案,与此同时,文本检测和识别也进入了深度学习时代。现有的基于深度学习的文本检测算法主要有三种:基于语义分割的网络模型、基于目标检测的网络模型和混合模型。基于语义分割的网络模型对文本图像进行像素级预测,并根据预测结果推断出各像素所属文本框的位置、形状和角度。基于目标检测的网络模型把文本当作一种特定目标,通过对大量预置文本框进行分类和回归预测直接输出目标文本框信息。虽然上述两种模型在文本检测上取得了优异性能,但它们各有缺点,譬如,基于语义分割的网络模型不是端到端的文本检测模型,为了从预测结果推断出目标文本框的信息,这类模型往往需要大量复杂的后处理操作,而基于目标检测的文本检测模型容易漏检宽高比较大的文本区域。混合型文本检测模型取两者之长,避两者之短,同时对像素和预置文本框进行预测,故能有效提高检测率,然而,因为这类模型需要多个并行或串行分支进行多种类型目标值的预测,它们具有网络结构复杂、计算效率低的问题。现有基于深度学习的文本识别模型可根据其序列预测模块的不同划分为基于注意力机制的识别模型和基于联结时序分类(CTC)的识别模型。这两种模型均使用卷积神经网络(CNN)和长短时记忆网络(LSTM)对文本图像进行特征提取以及对特征片段进行编码,不同的是,基于注意力机制的识别模型使用attention-GRU或attention-LSTM对特征序列进行解码,得到字符串序列输出,而基于CTC的识别模型使用前向-后向算法CTC进行帧级预测结果到字符串序列的映射。然而,上述两种识别模型均面临以下问题:一是对弯曲文本识别效果不佳,需要额外的文本矫正模块,此外,因为LSTM只接受一维特征向量作为输入,故二维特征图需要使用展平或池化操作映射到一维空间,这样会导致图像的空间和结构信息被破坏,进而影响识别性能;二是对低分辨文本图像鲁棒性差,由于自然场景文本图像分辨率差异较大,前处理阶段的尺度归一化操作会导致低分辨率图像放大后变模糊,进而影响识别性能。
技术实现思路
为了解决上述问题,本专利技术提出一种端到端文本检测和识别方法,该方法先基于语义分割思想过滤掉大部分的背景像素,然后,针对保留的文本像素进行预置文本框的分类和回归预测,直接输出目标文本框的位置和形状等信息,最后,算法设计一种数据自增强的带有特征相似性约束的识别器进行文本识别。本专利技术可通过以下技术方案实现:一种端到端文本检测和识别方法,利用对输入文本图像的语义分割结果过滤掉背景像素,生成预置文本框集,再对其中的预置文本框边缘上的多个基准点进行分类和回归预测,检测出目标文本框,然后利用尺度变换和空间变换对输入文本图像进行特征提取,并使用特征相似性约束策略对识别器进行训练,最后利用训练好的识别器对目标文本框中的字符序列进行识别。进一步,生成预置文本框集的方法包括:建立包括字符序列的图像库,对其中的各个文本图像进行归一化处理,再先后使用全卷积网络和上采样网络对输入文本图像进行不同缩放比例的多尺度特征图提取,以此作为输入,利用多个卷积层结合sigmoid函数生成语义分割图,同时,利用RPN网络对多尺度特征图上的所有像素位置进行区域提议生成,然后,根据语义分割图设置概率阈值,过滤掉小于所述概率阈值的像素点对应的区域提议,剩下的区域提议集合记为预置文本框集。进一步,生成预置文本框集的方法包括以下步骤:步骤1:收集并扩展自然场景的文本图像数据集作为训练样本集,对其中的文本图像I中的一个文本区域R进行标注,表示为GTR=[(x1,y1),(x2,y2),…,(xN,yN),txt],其中(xn,yn)为文本区域R边缘上的第n个基准点的坐标,N为预定义的基准点总数,txt为文本区域R中的字符串内容;步骤2:基于全卷积网络和上采样网络的多尺度特征提取:对样本进行归一化处理后,先使用全卷积网络对输入文本图片进行特征提取,生成缩放比例为1/2T,1/2(T+1),1/2(T+2)…1/2(T+U)的U组特征图F1,F2,…FU,再使用上采样网络进行特征提取,生成相同缩放比例的另外U组特征图F’1,F’2,…,F’U;步骤3:以特征图F’1,F’2,…,F’U作为输入,使用多个卷积层计算语义分割所需特征图,然后使用sigmoid函数计算各尺度上像素点为文本的概率,即生成语义分割图S1,S2,…,SU;步骤4:使用RPN网络针对多尺度特征图上所有像素位置进行区域提议生成,根据语义分割图S1,S2,…,SU中的值设置概率阈值,过滤掉小于所述概率阈值的像素点对应的区域提议,剩下的区域提议集合为预置文本框集B。进一步,检测出目标文本框的方法包括:先使用RoIAlign方法对每个预置文本框进行特征提取,生成指定长度的特征向量,然后使用全连接层对每个预置文本框进行分类预测,对其上等距离采样得到的基准点[(x’1,y’1),(x’2,y’2),…,(x’N,y’N)]进行回归预测,生成针对每个预置文本框的文本得分Sc和基准点偏移量(Δx1,Δy1,Δx2,Δy2,…,ΔxN,ΔyN),保留文本得分Sc大于设定得分阈值的预置文本框,并根据公式xti=x’i+Δxi和yti=y’i+Δyi计算出预置文本框回归后得到的基准点的位置,将其连接在一起,生成目标文本区域即为目标文本框。进一步,生成目标文本框的方法包括以下步骤:步骤(1):对于预置文本框集B中的不同大小的预置文本框,先使用RoIAlign方法生成指定长度的特征向量,然后使用全连接层对每个预置文本框进行分类预测,对其上等距离采样得到的基准点[(x’1,y’1),(x’2,y’2),…,(x’N,y’N)]进行回归预测,生成针对每个预置文本框的文本得分Sc和基准点偏移量(Δx1,Δy1,Δx2,Δy2,…,ΔxN,ΔyN);步骤(2):保留文本得分Sc大于设定得分阈值的文本区域,并根据公式xti=x’i+Δxi和yti=y’i+Δyi计算出回归后得到的基准点的位置,将其连接在一起,生成目标文本区域即为目标文本框,最后,采用非最大值抑制算法消除冗余的目标文本框。进一步,对识别器进行训练的方法包括:先对由GTR=[(x1,y1),(x2,y2),…,(xN,yN),txt]标注的高度为h的输入文本图像T进行三次尺度变换,得到变换图像T1,T2,T3,并根据标注的基准点使用薄板样条变换进行扭曲矫正,得到高度为h1的变换图像本文档来自技高网
...

【技术保护点】
1.一种端到端文本检测和识别方法,其特征在于:利用对输入文本图像的语义分割结果过滤掉背景像素,生成预置文本框集,再对其中的预置文本框边缘上的多个基准点进行分类和回归预测,检测出目标文本框,然后利用尺度变换和空间变换对输入文本图像进行特征提取,并使用特征相似性约束策略对识别器进行训练,最后利用训练好的识别器对目标文本框中的字符序列进行识别。/n

【技术特征摘要】
1.一种端到端文本检测和识别方法,其特征在于:利用对输入文本图像的语义分割结果过滤掉背景像素,生成预置文本框集,再对其中的预置文本框边缘上的多个基准点进行分类和回归预测,检测出目标文本框,然后利用尺度变换和空间变换对输入文本图像进行特征提取,并使用特征相似性约束策略对识别器进行训练,最后利用训练好的识别器对目标文本框中的字符序列进行识别。


2.根据权利要求1所述的端到端文本检测和识别方法,其特征在于生成预置文本框集的方法包括:建立包含字符序列的图像库,对其中的各个文本图像进行归一化处理,再先后使用全卷积网络和上采样网络对输入文本图像进行不同缩放比例的多尺度特征图提取,以此作为输入,利用多个卷积层结合sigmoid函数生成语义分割图,同时,利用RPN网络对多尺度特征图上的所有像素位置进行区域提议生成,然后,根据语义分割图设置概率阈值,过滤掉小于所述概率阈值的像素点对应的区域提议,剩下的区域提议集合记为预置文本框集。


3.根据权利要求2所述的端到端文本检测和识别方法,其特征在于生成预置文本框集的方法包括以下步骤:
步骤1:收集并扩展自然场景的文本图像数据集作为训练样本集,对其中的文本图像I中的文本区域R进行标注,表示为GTR=[(x1,y1),(x2,y2),…,(xN,yN),txt],其中(xn,yn)为文本区域R边缘上的第n个基准点坐标,N为预定义的基准点总数,txt为文本区域R中的字符串内容;
步骤2:基于全卷积网络和上采样网络的多尺度特征提取:对样本进行归一化处理后,先使用全卷积网络对输入文本图像进行特征提取,生成缩放比例为1/2T,1/2(T+1),1/2(T+2)…1/2(T+U)的U组特征图F1,F2,…FU,再使用上采样网络进行特征提取,生成相同缩放比例的另外U组特征图F’1,F’2,…,F’U;
步骤3:以特征图F’1,F’2,…,F’U作为输入,使用多个卷积层计算语义分割所需特征图,然后使用sigmoid函数计算各尺度上像素点为文本的概率,即生成语义分割图S1,S2,…,SU;
步骤4:使用RPN网络针对多尺度特征图上所有像素位置进行区域提议生成,根据语义分割图S1,S2,…,SU中的值设置概率阈值,过滤掉小于所述概率阈值的像素点对应的区域提议,剩下的区域提议集合为预置文本框集B。


4.根据权利要求1所述的端到端文本检测和识别方法,其特征在于检测出目标文本框的方法包括:先使用RoIAlign方法对每个预置文本框进行特征提取,生成指定长度的特征向量,然后使用全连接层对每个预置文本框进行分类预测,对其上等距离采样得到的基准点[(x’1,y’1),(x’2,y’2),…,(x’N,y’N)]进行回归预测,生成针对每个预置文本框的文本得分Sc和基准点偏移量(Δx1,Δy1,Δx2,Δy2,…,ΔxN,ΔyN),保留文本得分Sc大于设定得分阈值的预置文本框,并根据公式xti=x’i+Δxi和yti=y’i+Δyi计算出预置文本框回归后得到的基准点的位置,将其连接在一起,生成目标文本区域即为目标文本框。


5.根据权利要求4所述的端到端文本检测和识别方法,其特征在于生成目标文本框的方法包括以下步骤:
步骤(1):对于预置文本框集B中的不同大小的预置文本框,先使用RoIAlign方法生成指定长度的特征向量...

【专利技术属性】
技术研发人员:姜华王晴晴杜沁益李蔡元
申请(专利权)人:上海旻浦科技有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1