一种场景文本识别方法和装置制造方法及图纸

技术编号：32568045 阅读：16 留言：0更新日期：2022-03-09 16:54

本发明专利技术公开了一种场景文本识别方法和装置。其中，该方法包括：获取多张目标场景图像，其中，所述目标场景图像包含目标对象；将每张所述目标场景图像依次输入编码器进行特征提取和编码，生成图像编码特征序列；通过解码器解码所述图像编码特征序列，生成每张所述目标场景图像的字符识别结果；将多帧所述字符识别结果输入多帧综合模块，确定最终字符识别结果，解决现有技术场景文本识别准确率低、识别稳定性低、对采集图像要求高和抗攻击性差的技术问题。术问题。术问题。

全部详细技术资料下载

【技术实现步骤摘要】
一种场景文本识别方法和装置

[0001]本专利技术涉及图像识别领域，具体而言，涉及一种场景文本识别方法和装置。

技术介绍

[0002]近年来，随着计算机视觉技术的发展，作为计算机视觉技术的重要分支文本识别应用到更广泛的场景中，例如智能交通监控系统、网络信息安全监控、保险理赔等等。
[0003]基于传统光学字符识别技术中，通过传统的图像处理(例如，二值化、形态学变换、连通域分析、投影分析)实现文字逐字符的检测分割，进一步的，将分割后的文字区域输入识别模块获取文字内容。文字识别的准确性依赖于检测分割的质量，在背景单一、应用场景简单的场景下能达到理想的效果。但是在更复杂多变的应用场景下，传统方法难以保证识别的准确性。例如，车牌识别技术在实际应用场景中却不可避免地遇到光照条件、成像质量等的影响。
[0004]随着深度学习技术的发展，借助深层神经网络实现较复杂场景下的文本区域检测和识别的许多工作取得了很好的效果。主流的技术方案是CRNN和序列到序列，但此类方法在实践中存在以下限制：抗攻击性差，识别非文本图片时会错误识别...

【技术保护点】

【技术特征摘要】
1.一种场景文本识别方法，其特征在于，包括：获取多张目标场景图像，其中，所述目标场景图像包含目标对象；将每张所述目标场景图像依次输入编码器进行特征提取和编码，生成图像编码特征序列；通过解码器解码所述图像编码特征序列，生成每张所述目标场景图像的字符识别结果；将多帧所述字符识别结果输入多帧综合模块，确定最终字符识别结果。2.根据权利要求1所述的方法，其特征在于，所述将每张所述目标场景图像依次输入编码器进行特征提取和编码，生成图像编码特征序列以前，所述方法还包括：将所述目标场景图像输入经过训练的目标定位检测网络，获得所述目标对象的区域坐标和区域类型；根据所述区域坐标和所述区域类型，将所述目标场景图像仿射变换生成校正后的目标场景图像。3.根据权利要求1所述的方法，其特征在于，将每张所述目标场景图像依次输入编码器进行特征提取和编码，生成图像编码特征序列，包括：将所述目标场景图像经主干网络特征提取，获得特征序列；将所述特征序列通过至少一层双向循环网络，生成所述图像编码特征序列。4.根据权利要求3所述的方法，其特征在于，将所述目标场景图像经主干网络特征提取，获得特征序列，包括：将所述目标场景图像经所述主干网络处理，生成长宽与所述目标场景图像的长宽呈比例的多层特征图；按所述目标场景图像中文本排列方向，将所述多层特征图切割分离生成所述特征序列。5.根据权利要求3所述的权利要求，其特征在于，所述主干网络由至少一个卷积层，至少一个激活层，重排列层，切割层和合并层组成。6.根据权利要求3所述的权利要求，其特征在于，将所述特征序列通过至少一层双向循环网络，生成所述图像编码特征序列，包括：将所述特征序列分别从正向和反向输入所述至少一层双向循环网络，生成两个候选特征序列；将所述两个候选特征序列按空间对应关系合并，得到所述图像编码特征序列。7.根据权利要求1所述的方法，其特征在于，所述解码器由全连接层或多层感知器、联结时序连接分类模型组成，或者，所述解码器由全连接层或多层感知器、注意力机制和循环神经网络组成。8.根据权利要求7所述的方法，其特征在于，当所述解码器由全连接层或多层感知器、时序连接分类模型组成，所述方法包括：将所述图像编码特征序列输入所述全连接层或多层感知器，获得与输入特征序列同样长度的分类概率分布向量；根据所述目标对象的解码规则，通过所述联结时序分类模型解码所述分类概率分布向量，生成所述每张所述目标场景图像的字符识别结果。
9.根据权利要求7所述的方法，其特征在于，当所述解码器由全连接层或多层感知器、注意力机制和循环神经网络组成，包括：将所述图像编码特征序列中每个序列通过所述全连接层或多层感知器转换为各序列的权重向量；根据所述各序列的权重向量，通过注意力机制融合得到能够表征当前待识别的字符的特征向量；将待识别的字符的特征向量送入所述循环神经网络中进而依次得到所述每张所述目标场景图像的字符识别结果。10.根据权利要求1所述的方法，其特征在于，将多帧所述字符识别结果输入多帧综合模块，确定最终字符识别结果，包括：综合所述字符识别结果，所述多帧综合模块判断是否得到稳定识别结果，若是，完成识别流程并输出所述最终字符识别结果，若否，则返回所述编码器和所述解码器重复识别流程，其中，所述最终字符识别结果为所述字符识别结果的投票结果中重复次数最多且大于第一阈值对应的字符识别结果。11.根据权利要求1所述的方法，其特征在于，所述将多帧所述字符识别结果输入多帧综合模块，确定最终字符识别结果之前，所述方法包括：将所述目标场景图像输入质量评价单元，生成图片质量评分结果。12.根据权利要求11所述的方法，其特征在于，将多帧所述字符识别结果输入多帧综合模块，确定最终字符识别结果之前，所述方法还包括：综合每帧所述字符识别结果、所述图片质量评分结果和目标识别类型的编码规则，对多帧所述字符识别结果进行合理性校验，若是，则输入所述多帧综合模块，若否，则不输入所述多帧综合模块。13.根据权利要求11所述的方法，其特征在于，将所述目标场景图像输入质量评价单元，生成图片质量评分结果，包括：通过对所述目标场景图像进行低通滤波处理得到退化图像，分别度量所述目标场景图像和所述退化图像的图像质量生成两组向量，将所述两组元素中各元素差的平方和的均值作为所述图片质量评分结果。14.根据权利要求13所述的方法，其特征在于，度量所述目标场景图像和所述退化图像的图像质量生成两组向量，包括：分别将所述目标场景图像和所述退化图像中每个像素计算该像素与相邻像素的灰度差的绝对值并求平均值，将所述平均值除以该像素周围邻域内的灰度均值，生成所述两组向量。15.根据权利要求2所述的方法，其特征在于，所述目标定位检测网络包括：第二主干网路，用于处理所述目标场景图像，生成长宽均与目标场景图像的长宽呈比例的第二特征图；区域定位分支，用于根据所述第二特征图，确定目标对象的区域描述向量并输出所述区域坐标；分类网络分支，用于根据所述第二特征图，预测所述区域类型。16.根据权利要求2所述的方法，其特征在于，根据所述区域坐标和所述区域类型，将所
述目标场景图像仿射变换生成校...

【专利技术属性】
技术研发人员：张春阳，王进，徐刚，
申请(专利权)人：虹软科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人