一种端到端文本检测和识别方法技术

技术编号：28296556 阅读：26 留言：0更新日期：2021-04-30 16:21

本发明专利技术属于视觉识别的技术领域，公开了一种端到端文本检测和识别方法，利用对输入文本图像的语义分割结果过滤掉背景像素，生成预置文本框集，再对其中的预置文本框边缘上的多个基准点进行分类和回归预测，检测出目标文本框，然后利用尺度变换和空间变换对输入文本图像进行特征提取，并使用特征相似性约束策略对识别器进行训练，最后利用训练好的识别器对目标文本框中的字符序列进行识别。本发明专利技术对自然场景图像中的文本进行端到端的检测和识别，在考虑到模型效率的同时，提升了模型对弯曲文本和低分辨率文本的鲁棒性，具有创新和实际应用价值。

全部详细技术资料下载

【技术实现步骤摘要】
一种端到端文本检测和识别方法
本专利技术涉及视觉识别的
，尤其涉及一种端到端文本检测和识别方法。
技术介绍
文字在人们日常生活中扮演着举足轻重的角色，它们以交通指示牌、海报广告语和包装袋上产品描述等形式为人们传递信息和知识。随着手机、车载相机等带有摄像功能的设备的普及，越来越多的文字以图像形式采集、传播和存储，从图像中自动检测和识别文字在智能交通、图像检测以及场景理解等领域具有广阔的应用前景，因此，相关研究在计算机视觉领域一直备受关注。近年来，基于深度学习的网络模型在声（语音识别）、图（计算机视觉）、文（自然语言处理）三大领域独占鳌头，成为各相关任务的主要解决方案，与此同时，文本检测和识别也进入了深度学习时代。现有的基于深度学习的文本检测算法主要有三种：基于语义分割的网络模型、基于目标检测的网络模型和混合模型。基于语义分割的网络模型对文本图像进行像素级预测，并根据预测结果推断出各像素所属文本框的位置、形状和角度。基于目标检测的网络模型把文本当作一种特定目标，通过对大量预置文本框进行分类和回归预测直接输出目标文本框信息。虽然上述两种模型在文本检测上取得了优异性能，但它们各有缺点，譬如，基于语义分割的网络模型不是端到端的文本检测模型，为了从预测结果推断出目标文本框的信息，这类模型往往需要大量复杂的后处理操作，而基于目标检测的文本检测模型容易漏检宽高比较大的文本区域。混合型文本检测模型取两者之长，避两者之短，同时对像素和预置文本框进行预测，故能有效提高检测率，然而，因为这类模型需要多个并行或串行分支进行多种类...

【技术保护点】
1.一种端到端文本检测和识别方法，其特征在于：利用对输入文本图像的语义分割结果过滤掉背景像素，生成预置文本框集，再对其中的预置文本框边缘上的多个基准点进行分类和回归预测，检测出目标文本框，然后利用尺度变换和空间变换对输入文本图像进行特征提取，并使用特征相似性约束策略对识别器进行训练，最后利用训练好的识别器对目标文本框中的字符序列进行识别。/n

【技术特征摘要】
1.一种端到端文本检测和识别方法，其特征在于：利用对输入文本图像的语义分割结果过滤掉背景像素，生成预置文本框集，再对其中的预置文本框边缘上的多个基准点进行分类和回归预测，检测出目标文本框，然后利用尺度变换和空间变换对输入文本图像进行特征提取，并使用特征相似性约束策略对识别器进行训练，最后利用训练好的识别器对目标文本框中的字符序列进行识别。

2.根据权利要求1所述的端到端文本检测和识别方法，其特征在于生成预置文本框集的方法包括：建立包含字符序列的图像库，对其中的各个文本图像进行归一化处理，再先后使用全卷积网络和上采样网络对输入文本图像进行不同缩放比例的多尺度特征图提取，以此作为输入，利用多个卷积层结合sigmoid函数生成语义分割图，同时，利用RPN网络对多尺度特征图上的所有像素位置进行区域提议生成，然后，根据语义分割图设置概率阈值，过滤掉小于所述概率阈值的像素点对应的区域提议，剩下的区域提议集合记为预置文本框集。

3.根据权利要求2所述的端到端文本检测和识别方法，其特征在于生成预置文本框集的方法包括以下步骤：
步骤1：收集并扩展自然场景的文本图像数据集作为训练样本集，对其中的文本图像I中的文本区域R进行标注，表示为GTR=[(x1,y1),(x2,y2),…,(xN,yN),txt],其中(xn,yn)为文本区域R边缘上的第n个基准点坐标，N为预定义的基准点总数，txt为文本区域R中的字符串内容；
步骤2：基于全卷积网络和上采样网络的多尺度特征提取：对样本进行归一化处理后，先使用全卷积网络对输入文本图像进行特征提取，生成缩放比例为1/2T，1/2(T+1)，1/2(T+2)…1/2(T+U)的U组特征图F1,F2,…FU，再使用上采样网络进行特征提取，生成相同缩放比例的另外U组特征图F’1,F’2,…,F’U；
步骤3：以特征图F’1,F’2,…,F’U作为输入，使用多个卷积层计算语义分割所需特征图，然后使用sigmoid函数计算各尺度上像素点为文本的概率，即生成语义分割图S1,S2,…,SU；
步骤4：使用RPN网络针对多尺度特征图上所有像素位置进行区域提议生成，根据语义分割图S1,S2,…,SU中的值设置概率阈值，过滤掉小于所述概率阈值的像素点对应的区域提议，剩下的区域提议集合为预置文本框集B。

4.根据权利要求1所述的端到端文本检测和识别方法，其特征在于检测出目标文本框的方法包括：先使用RoIAlign方法对每个预置文本框进行特征提取，生成指定长度的特征向量，然后使用全连接层对每个预置文本框进行分类预测，对其上等距离采样得到的基准点[(x’1,y’1),(x’2,y’2),…,(x’N,y’N)]进行回归预测，生成针对每个预置文本框的文本得分Sc和基准点偏移量(Δx1,Δy1,Δx2,Δy2,…,ΔxN,ΔyN)，保留文本得分Sc大于设定得分阈值的预置文本框，并根据公式xti=x’i+Δxi和yti=y’i+Δyi计算出预置文本框回归后得到的基准点的位置，将其连接在一起，生成目标文本区域即为目标文本框。

5.根据权利要求4所述的端到端文本检测和识别方法，其特征在于生成目标文本框的方法包括以下步骤：
步骤（1）：对于预置文本框集B中的不同大小的预置文本框，先使用RoIAlign方法生成指定长度的特征向量...

【专利技术属性】
技术研发人员：姜华，王晴晴，杜沁益，李蔡元，
申请(专利权)人：上海旻浦科技有限公司，
类型：发明
国别省市：上海;31

全部详细技术资料下载我是这个专利的主人