一种基于参数重构网络的字符识别方法及系统技术方案

技术编号:33291112 阅读:9 留言:0更新日期:2022-05-01 00:10
本发明专利技术涉及一种基于参数重构网络的字符识别方法及系统,包括:获取待检测图像;利用特征金字塔网络对所述待检测图像进行拼接和提取,得到共享特征图;利用全卷积神经网络对所述共享特征图进行检测,得到带预测文本框的图像;对所述共享特征图和所述带预测文件框的图像进行仿射变换,得到水平特征图;对所述水平特征图进行识别,得到预测文本标签;根据所述带预测文本框的图像和所述预测文本标签得到字符识别结果。本发明专利技术能够提高字符识别的准确性。性。性。

【技术实现步骤摘要】
一种基于参数重构网络的字符识别方法及系统


[0001]本专利技术涉及字符识别领域,特别是涉及一种基于参数重构网络的字符识别方法及系统。

技术介绍

[0002]光学字符识别(Optical Character Recognition,OCR)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程;即,针对印刷体字符,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。如何除错或利用辅助信息提高识别正确率,是OCR最重要的课题。
[0003]由于在文档分析、场景理解、机器人导航和图像检索中的大量实际应用,在自然场景中的光学字符识别已经引起了计算机视觉界越来越多的关注。自然场景中的光学字符识别提供了一种自动快速获取自然场景中体现的文本信息的方式,通常分为两个子问题:场景文本检测和场景文本识别。
[0004]得益于深度神经网络提供的强大表示能力,场景文本检测和识别取得了重大进展。自然场景文本定位旨在从自然图像中同时定位和识别文本,已经被广泛研究。遵循传统的方法分别处理文本检测和识别过程,其中文本检测首先被训练的文本检测器命中,然后被送到文本识别模型中。这个架构看起来简单明了,但是可能会导致检测和识别的次优性能,以为这两个任务是相关的,并且是相互补充的。最近,一些研究人员开始将文本检测和识别与端到端可训练网络相结合,该网络由两个子模型组成:用于提取文本实例的检测网络和用于预测每个文本实例的序列标签的序列

序列网络。通过这些方法实现了文本识别的显著性能改进,证明了检测模型和识别模型是互补的,特别是当它们以端到端学习方式训练时。
[0005]然而在某些特定的场景下,例如在制造,供应仓储等场景下,对于元器件、电路板的字符图片,由于元器件供应商多,器件种类多,字符的样式多种多样,且针对一家供应商无法大量搜集电路板、元器件上的字符图片样例,同样对于跨境运输的货车,车牌样式,字体均不一致,且数据难以搜集,不太可能获得大量数据,即使存在大量数据,在对数据进行有效标注时将耗费大量人力物力,无法获取足够的带标签的训练样本,使得深度学习容易产生过拟合。

技术实现思路

[0006]本专利技术的目的是提供一种基于参数重构网络的字符识别方法及系统,以提高字符识别的准确性。
[0007]为实现上述目的,本专利技术提供了如下方案:
[0008]一种基于参数重构网络的字符识别方法,包括:
[0009]获取待检测图像;
[0010]利用特征金字塔网络对所述待检测图像进行拼接和提取,得到共享特征图;
[0011]利用全卷积神经网络对所述共享特征图进行检测,得到带预测文本框的图像;
[0012]对所述共享特征图和所述带预测文件框的图像进行仿射变换,得到水平特征图;
[0013]对所述水平特征图进行识别,得到预测文本标签;
[0014]根据所述带预测文本框的图像和所述预测文本标签得到字符识别结果。
[0015]可选地,所述利用特征金字塔网络对所述待检测图像进行拼接和提取,得到共享特征图,具体包括:
[0016]将所述待检测图像依次输入所述特征金字塔网络的卷积层、池化层和模型重构层,得到重构特征图;
[0017]对所述重构特征图进行上采样,得到共享特征图。
[0018]可选地,所述利用全卷积神经网络对所述共享特征图进行检测,得到带预测文本框的图像,具体包括:
[0019]对所述共享特征图分别进行卷积处理和池化处理,得到池化特征图;
[0020]对所述池化特征图进行上采样得到上采样结果;
[0021]所述上采样结果和所述池化特征图进行叠加,得到分类输出结果和定位输出结果;
[0022]根据所述分类输出结果和所述定位输出结果确定带预测文本框的图像。
[0023]可选地,所述对所述共享特征图和所述带预测文件框的图像进行仿射变换,得到水平特征图,具体包括:
[0024]根据所述带预测文件框的图像确定仿射变换参数;
[0025]根据所述共享特征图和所述仿射变换参数确定水平特征图。
[0026]可选地,所述对所述水平特征图进行识别,得到预测文本标签,具体包括:
[0027]将所述水平特征图进行卷积处理和池化处理,得到高级特征图;
[0028]将所述高级特征图进行置换,得到时间序列;
[0029]根据双向LSTM和所述时间序列确定隐藏状态;
[0030]将所述隐藏状态进行求和并将求和结果输入到全连接层,得到预测文本标签。
[0031]一种基于参数重构网络的字符识别系统,包括:
[0032]获取模块,用于获取待检测图像;
[0033]拼接和提取模块,用于利用特征金字塔网络对所述待检测图像进行拼接和提取,得到共享特征图;
[0034]检测模块,用于利用全卷积神经网络对所述共享特征图进行检测,得到带预测文本框的图像;
[0035]仿射变换模块,用于对所述共享特征图和所述带预测文件框的图像进行仿射变换,得到水平特征图;
[0036]识别模块,用于对所述水平特征图进行识别,得到预测文本标签;
[0037]字符识别结果确定模块,用于根据所述带预测文本框的图像和所述预测文本标签得到字符识别结果。
[0038]可选地,所述拼接和提取模块,具体包括:
[0039]重构特征图确定单元,用于将所述待检测图像依次输入所述特征金字塔网络的卷积层、池化层和模型重构层,得到重构特征图;
[0040]上采样单元,用于对所述重构特征图进行上采样,得到共享特征图。
[0041]可选地,所述检测模块,具体包括:
[0042]池化特征图确定单元,用于对所述共享特征图分别进行卷积处理和池化处理,得到池化特征图;
[0043]上采样结果确定单元,用于对所述池化特征图进行上采样得到上采样结果;
[0044]叠加单元,用于所述上采样结果和所述池化特征图进行叠加,得到分类输出结果和定位输出结果;
[0045]带预测文本框的图像确定单元,用于根据所述分类输出结果和所述定位输出结果确定带预测文本框的图像。
[0046]可选地,所述仿射变换模块,具体包括:
[0047]仿射变换参数确定单元,用于根据所述带预测文件框的图像确定仿射变换参数;
[0048]水平特征图确定单元,用于根据所述共享特征图和所述仿射变换参数确定水平特征图。
[0049]可选地,所述识别模块,具体包括:
[0050]高级特征图确定单元,用于将所述水平特征图进行卷积处理和池化处理,得到高级特征图;
[0051]置换单元,用于将所述高级特征图进行置换,得到时间序列;
[0052]隐藏状态确定单元,用于根据双向LSTM和所述时间序列本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于参数重构网络的字符识别方法,其特征在于,包括:获取待检测图像;利用特征金字塔网络对所述待检测图像进行拼接和提取,得到共享特征图;利用全卷积神经网络对所述共享特征图进行检测,得到带预测文本框的图像;对所述共享特征图和所述带预测文件框的图像进行仿射变换,得到水平特征图;对所述水平特征图进行识别,得到预测文本标签;根据所述带预测文本框的图像和所述预测文本标签得到字符识别结果。2.根据权利要求1所述的基于参数重构网络的字符识别方法,其特征在于,所述利用特征金字塔网络对所述待检测图像进行拼接和提取,得到共享特征图,具体包括:将所述待检测图像依次输入所述特征金字塔网络的卷积层、池化层和模型重构层,得到重构特征图;对所述重构特征图进行上采样,得到共享特征图。3.根据权利要求1所述的基于参数重构网络的字符识别方法,其特征在于,所述利用全卷积神经网络对所述共享特征图进行检测,得到带预测文本框的图像,具体包括:对所述共享特征图分别进行卷积处理和池化处理,得到池化特征图;对所述池化特征图进行上采样得到上采样结果;所述上采样结果和所述池化特征图进行叠加,得到分类输出结果和定位输出结果;根据所述分类输出结果和所述定位输出结果确定带预测文本框的图像。4.根据权利要求1所述的基于参数重构网络的字符识别方法,其特征在于,所述对所述共享特征图和所述带预测文件框的图像进行仿射变换,得到水平特征图,具体包括:根据所述带预测文件框的图像确定仿射变换参数;根据所述共享特征图和所述仿射变换参数确定水平特征图。5.根据权利要求1所述的基于参数重构网络的字符识别方法,其特征在于,所述对所述水平特征图进行识别,得到预测文本标签,具体包括:将所述水平特征图进行卷积处理和池化处理,得到高级特征图;将所述高级特征图进行置换,得到时间序列;根据双向LSTM和所述时间序列确定隐藏状态;将所述隐藏状态进行求和并将求和结果输入到全连接层,得到预测文本标签。6.一种基于参数重构网络的字符识别系统,其特征在于,包括:获取模块,用于获取待检测图像;拼接和提取模块,...

【专利技术属性】
技术研发人员:庞枫骞康营营赵鸿飞
申请(专利权)人:北方工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1