一种场景文本识别方法和装置制造方法及图纸

技术编号:32568045 阅读:7 留言:0更新日期:2022-03-09 16:54
本发明专利技术公开了一种场景文本识别方法和装置。其中,该方法包括:获取多张目标场景图像,其中,所述目标场景图像包含目标对象;将每张所述目标场景图像依次输入编码器进行特征提取和编码,生成图像编码特征序列;通过解码器解码所述图像编码特征序列,生成每张所述目标场景图像的字符识别结果;将多帧所述字符识别结果输入多帧综合模块,确定最终字符识别结果,解决现有技术场景文本识别准确率低、识别稳定性低、对采集图像要求高和抗攻击性差的技术问题。术问题。术问题。

【技术实现步骤摘要】
一种场景文本识别方法和装置


[0001]本专利技术涉及图像识别领域,具体而言,涉及一种场景文本识别方法和装置。

技术介绍

[0002]近年来,随着计算机视觉技术的发展,作为计算机视觉技术的重要分支文本识别应用到更广泛的场景中,例如智能交通监控系统、网络信息安全监控、保险理赔等等。
[0003]基于传统光学字符识别技术中,通过传统的图像处理(例如,二值化、形态学变换、连通域分析、投影分析)实现文字逐字符的检测分割,进一步的,将分割后的文字区域输入识别模块获取文字内容。文字识别的准确性依赖于检测分割的质量,在背景单一、应用场景简单的场景下能达到理想的效果。但是在更复杂多变的应用场景下,传统方法难以保证识别的准确性。例如,车牌识别技术在实际应用场景中却不可避免地遇到光照条件、成像质量等的影响。
[0004]随着深度学习技术的发展,借助深层神经网络实现较复杂场景下的文本区域检测和识别的许多工作取得了很好的效果。主流的技术方案是CRNN和序列到序列,但此类方法在实践中存在以下限制:抗攻击性差,识别非文本图片时会错误识别出若干字符结果;识别稳定性低,在不利场景下例如拍摄角度不佳,光照条件复杂下容易误识别;针对多行文本或者不规则文本,实践中需要额外采集大量样本针对性训练方可实现可靠有效的的识别。此外,现有技术包含单帧图像文本识别部分的技术,不涉及图像在复杂场景下的定位以及多帧图像文本识别结果的融合。
[0005]针对上述的问题,目前尚未提出有效的解决方案。

技术实现思路

[0006]本专利技术实施例提供了一种场景文本识别方法和装置,以至少解决现有技术场景文本识别准确率低、识别稳定性低、对采集图像要求高和抗攻击性差的技术问题。
[0007]根据本专利技术实施例的一个方面,提供了一种场景文本识别方法和装置,包括:获取多张目标场景图像,其中,上述目标场景图像包含目标对象;将每张上述目标场景图像依次输入编码器进行特征提取和编码,生成图像编码特征序列;通过解码器解码上述图像编码特征序列,生成每张上述目标场景图像的字符识别结果;将多帧上述字符识别结果输入多帧综合模块,确定最终字符识别结果。
[0008]可选地,上述将每张上述目标场景图像依次输入编码器进行特征提取和编码,生成图像编码特征序列以前,上述方法还包括:将上述目标场景图像输入经过训练的目标定位检测网络,获得上述目标对象的区域坐标和区域类型;根据上述区域坐标和上述区域类型,将上述目标场景图像仿射变换生成校正后的目标场景图像。
[0009]可选地,将每张上述目标场景图像依次输入编码器进行特征提取和编码,生成图像编码特征序列,包括:将上述目标场景图像经主干网络特征提取,获得特征序列;将上述特征序列通过至少一层双向循环网络,生成上述图像编码特征序列。
[0010]可选地,将上述目标场景图像经主干网络特征提取,获得特征序列,包括:将上述目标场景图像经上述主干网络处理,生成长宽与上述目标场景图像的长宽呈比例的多层特征图;按上述目标场景图像中文本排列方向,将上述多层特征图切割分离生成上述特征序列。
[0011]可选地,上述主干网络由至少一个卷积层,至少一个激活层,重排列层,切割层和合并层组成。
[0012]可选地,将上述特征序列通过至少一层双向循环网络,生成上述图像编码特征序列,包括:将上述特征序列分别从正向和反向输入上述至少一层双向循环网络,生成两个候选特征序列;将上述两个候选特征序列按空间对应关系合并,得到上述图像编码特征序列。
[0013]可选地,上述解码器由全连接层或多层感知器、联结时序连接分类模型组成,或者,上述解码器由全连接层或多层感知器、注意力机制和循环神经网络组成。
[0014]可选地,当上述解码器由全连接层或多层感知器、时序连接分类模型组成,上述方法包括:将上述图像编码特征序列输入上述全连接层或多层感知器,获得与输入特征序列同样长度的分类概率分布向量;根据上述目标对象的解码规则,通过上述联结时序分类模型解码上述分类概率分布向量,生成上述每张上述目标场景图像的字符识别结果。
[0015]可选地,当上述解码器由全连接层或多层感知器、注意力机制和循环神经网络组成,包括:将上述图像编码特征序列中每个序列通过上述全连接层或多层感知器转换为各序列的权重向量;根据上述各序列的权重向量,通过注意力机制融合得到能够表征当前待识别的字符的特征向量;将待识别的字符的特征向量送入上述循环神经网络中进而依次得到上述每张上述目标场景图像的字符识别结果。
[0016]可选地,将多帧上述字符识别结果输入多帧综合模块,确定最终字符识别结果,包括:综合上述字符识别结果,上述多帧综合模块判断是否得到稳定识别结果,若是,完成识别流程并输出上述最终字符识别结果,若否,则返回上述编码器和上述解码器重复识别流程,其中,上述最终字符识别结果为上述字符识别结果的投票结果中重复次数最多且大于第一阈值对应的字符识别结果。
[0017]可选地,上述将多帧上述字符识别结果输入多帧综合模块,确定最终字符识别结果之前,上述方法包括:将上述目标场景图像输入质量评价单元,生成图片质量评分结果。
[0018]可选地,将多帧上述字符识别结果输入多帧综合模块,确定最终字符识别结果之前,上述方法还包括:综合每帧上述字符识别结果、上述图片质量评分结果和目标识别类型的编码规则,对多帧上述字符识别结果进行合理性校验,若是,则输入上述多帧综合模块,若否,则不输入上述多帧综合模块。
[0019]可选地,将上述目标场景图像输入质量评价单元,生成图片质量评分结果,包括:通过对上述目标场景图像进行低通滤波处理得到退化图像,分别度量上述目标场景图像和上述退化图像的图像质量生成两组向量,将上述两组元素中各元素差的平方和的均值作为上述图片质量评分结果。
[0020]可选地,度量上述目标场景图像和上述退化图像的图像质量生成两组向量,包括:分别将上述目标场景图像和上述退化图像中每个像素计算该像素与相邻像素的灰度差的绝对值并求平均值,将上述平均值除以该像素周围邻域内的灰度均值,生成上述两组向量。
[0021]可选地,上述目标定位检测网络包括:第二主干网路,用于处理上述目标场景图
像,生成长宽均与目标场景图像的长宽呈比例的第二特征图;区域定位分支,用于根据上述第二特征图,确定目标对象的区域描述向量并输出上述区域坐标;分类网络分支,用于根据上述第二特征图,预测上述区域类型。
[0022]可选地,根据上述区域坐标和上述区域类型,将上述目标场景图像仿射变换生成校正后的目标场景图像,包括:结合上述区域坐标和预设目标对象模板确定变换矩阵,其中,上述预设目标对象模板的坐标和上述区域坐标一一对应,上述变换矩阵包括:仿射变换矩阵和/或透视变换矩阵;根据上述变换矩阵将上述目标场景图像仿射变换生成校正后的目标场景图像。
[0023]可选地,上述方法包括:创建初始目标定位检测网络;使用样本数据对上述初始目标定位检测网络进行训练,获得上述经过训练的目标定位检测网络,其中本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种场景文本识别方法,其特征在于,包括:获取多张目标场景图像,其中,所述目标场景图像包含目标对象;将每张所述目标场景图像依次输入编码器进行特征提取和编码,生成图像编码特征序列;通过解码器解码所述图像编码特征序列,生成每张所述目标场景图像的字符识别结果;将多帧所述字符识别结果输入多帧综合模块,确定最终字符识别结果。2.根据权利要求1所述的方法,其特征在于,所述将每张所述目标场景图像依次输入编码器进行特征提取和编码,生成图像编码特征序列以前,所述方法还包括:将所述目标场景图像输入经过训练的目标定位检测网络,获得所述目标对象的区域坐标和区域类型;根据所述区域坐标和所述区域类型,将所述目标场景图像仿射变换生成校正后的目标场景图像。3.根据权利要求1所述的方法,其特征在于,将每张所述目标场景图像依次输入编码器进行特征提取和编码,生成图像编码特征序列,包括:将所述目标场景图像经主干网络特征提取,获得特征序列;将所述特征序列通过至少一层双向循环网络,生成所述图像编码特征序列。4.根据权利要求3所述的方法,其特征在于,将所述目标场景图像经主干网络特征提取,获得特征序列,包括:将所述目标场景图像经所述主干网络处理,生成长宽与所述目标场景图像的长宽呈比例的多层特征图;按所述目标场景图像中文本排列方向,将所述多层特征图切割分离生成所述特征序列。5.根据权利要求3所述的权利要求,其特征在于,所述主干网络由至少一个卷积层,至少一个激活层,重排列层,切割层和合并层组成。6.根据权利要求3所述的权利要求,其特征在于,将所述特征序列通过至少一层双向循环网络,生成所述图像编码特征序列,包括:将所述特征序列分别从正向和反向输入所述至少一层双向循环网络,生成两个候选特征序列;将所述两个候选特征序列按空间对应关系合并,得到所述图像编码特征序列。7.根据权利要求1所述的方法,其特征在于,所述解码器由全连接层或多层感知器、联结时序连接分类模型组成,或者,所述解码器由全连接层或多层感知器、注意力机制和循环神经网络组成。8.根据权利要求7所述的方法,其特征在于,当所述解码器由全连接层或多层感知器、时序连接分类模型组成,所述方法包括:将所述图像编码特征序列输入所述全连接层或多层感知器,获得与输入特征序列同样长度的分类概率分布向量;根据所述目标对象的解码规则,通过所述联结时序分类模型解码所述分类概率分布向量,生成所述每张所述目标场景图像的字符识别结果。
9.根据权利要求7所述的方法,其特征在于,当所述解码器由全连接层或多层感知器、注意力机制和循环神经网络组成,包括:将所述图像编码特征序列中每个序列通过所述全连接层或多层感知器转换为各序列的权重向量;根据所述各序列的权重向量,通过注意力机制融合得到能够表征当前待识别的字符的特征向量;将待识别的字符的特征向量送入所述循环神经网络中进而依次得到所述每张所述目标场景图像的字符识别结果。10.根据权利要求1所述的方法,其特征在于,将多帧所述字符识别结果输入多帧综合模块,确定最终字符识别结果,包括:综合所述字符识别结果,所述多帧综合模块判断是否得到稳定识别结果,若是,完成识别流程并输出所述最终字符识别结果,若否,则返回所述编码器和所述解码器重复识别流程,其中,所述最终字符识别结果为所述字符识别结果的投票结果中重复次数最多且大于第一阈值对应的字符识别结果。11.根据权利要求1所述的方法,其特征在于,所述将多帧所述字符识别结果输入多帧综合模块,确定最终字符识别结果之前,所述方法包括:将所述目标场景图像输入质量评价单元,生成图片质量评分结果。12.根据权利要求11所述的方法,其特征在于,将多帧所述字符识别结果输入多帧综合模块,确定最终字符识别结果之前,所述方法还包括:综合每帧所述字符识别结果、所述图片质量评分结果和目标识别类型的编码规则,对多帧所述字符识别结果进行合理性校验,若是,则输入所述多帧综合模块,若否,则不输入所述多帧综合模块。13.根据权利要求11所述的方法,其特征在于,将所述目标场景图像输入质量评价单元,生成图片质量评分结果,包括:通过对所述目标场景图像进行低通滤波处理得到退化图像,分别度量所述目标场景图像和所述退化图像的图像质量生成两组向量,将所述两组元素中各元素差的平方和的均值作为所述图片质量评分结果。14.根据权利要求13所述的方法,其特征在于,度量所述目标场景图像和所述退化图像的图像质量生成两组向量,包括:分别将所述目标场景图像和所述退化图像中每个像素计算该像素与相邻像素的灰度差的绝对值并求平均值,将所述平均值除以该像素周围邻域内的灰度均值,生成所述两组向量。15.根据权利要求2所述的方法,其特征在于,所述目标定位检测网络包括:第二主干网路,用于处理所述目标场景图像,生成长宽均与目标场景图像的长宽呈比例的第二特征图;区域定位分支,用于根据所述第二特征图,确定目标对象的区域描述向量并输出所述区域坐标;分类网络分支,用于根据所述第二特征图,预测所述区域类型。16.根据权利要求2所述的方法,其特征在于,根据所述区域坐标和所述区域类型,将所
述目标场景图像仿射变换生成校...

【专利技术属性】
技术研发人员:张春阳王进徐刚
申请(专利权)人:虹软科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1