图像中文字的识别装置制造方法及图纸

技术编号：28538380 阅读：37 留言：0更新日期：2021-05-21 09:02

本发明专利技术公开了一种图像中文字的识别装置。包括：图像输入模块，用于将目标图像输入文字识别模型；第一特征提取模块，用于对所述目标图像提取第一深度的第一图像特征；第一特征处理模块，用于对所述第一图像特征进行第一空间变换，得到第一空间变换矩阵；第二特征提取模块，用于对所述第一空间变换矩阵提取第二深度的第二图像特征，所述第二深度的特征提取使用的第一卷积层的数目多于所述第一深度；第二特征处理模块，用于对所述第而图像特征进行第二空间变换，得到第二空间变换矩阵；文字识别模块，用于根据所述第二空间变换矩阵，得到对所述目标图像中包括的文字的识别结果。本发明专利技术实施例可以对目标图像的图像特征进行校正，提高识别准确率。

全部详细技术资料下载

【技术实现步骤摘要】
图像中文字的识别装置
本专利技术实施例涉及计算机视觉
，尤其涉及一种图像中文字的识别装置。
技术介绍
基于计算机视觉的光学字符识别(OpticalCharacterRecognition，OCR)，已经被广泛应用于商业领域。光学字符识别检测和识别自然场景图像中的文本仍然是具有挑战性的。包含自然场景的图片会存在很多影响文字识别的因素。例如，大量的光照变化、透视扭曲、图片质量、文本字体、不同的背景等。当需要检测的图像中文字存在倾斜，扭曲或者背景不同的情况下，光学文字识别的识别准确率会受一定的影响。
技术实现思路
本专利技术实施例提供一种图像中文字的识别装置，能够实现对图像中文字进行校正处理，提高识别准确率。本专利技术提供了一种图像中文字的识别装置，预先利用训练样本集对文字识别模型进行训练，装置包括：图像输入模块，用于将目标图像输入所述文字识别模型；第一特征提取模块，用于对所述目标图像提取第一深度的第一图像特征；第一特征处理模块，用于对所述第一图像特征进行第一空间变换，得到第一空间变换矩阵；第二特征提取模块，用于对所述第一空间变换矩阵提取第二深度的第二图像特征，所述第二深度的图像特征提取使用的第一卷积层的层数大于所述第一深度；第二特征处理模块，用于对所述第而图像特征进行第二空间变换，得到第二空间变换矩阵；文字识别模块，用于根据所述第二空间变换矩阵，得到对所述目标图像中包括的文字的识别结果。优选地，所述第一特征提取模块包括：r>像素矩阵获取单元，用于获取所述目标图像的像素矩阵；卷积计算单元，用于对所述像素矩阵进行预设窗口大小的卷积运算，得到所述第一图像特征。优选地，所述第一特征处理模块包括：参数确定单元，用于根据所述第一图像特征以及预设的第一空间变换的形式，确定至少一个变换参数；映射关系确定单元，用于根据所述变换参数，搜索确定输入特征与输出特征之间的映射关系；矩阵变换单元，用于根据所述第一图像特征以及所述映射关系，得到第一空间变换矩阵。优选地，所述第二特征提取模块包括：特征矩阵获取单元，用于通过密集卷积网络从所述第一空间变换矩阵提取第二图像特征；其中，所述密集卷积网络包括至少两个稠密块，每个所述稠密块中对输入内容进行预设窗口大小的卷积运算，所述稠密块中包括多个依次相连的第二卷积层，对于每个所述第二卷积层，将该层之前的各第二卷积层输出的所有特征矩阵依次拼接，作为该层的输入。优选地，所述文字识别模块包括：矩阵输入单元，用于将所述第二空间变换矩阵输入至相连的长短期记忆网络和翻译层中，得到目标图像中文字的识别结果。优选地，所述文字识别模型包括：依次相连的第三卷积层、第一空间变换网络、密集卷积网络、第二空间变换网络、长短期记忆网络以及翻译层；所述目标图像输入所述第三卷积层的输入端，所述翻译层的输出端输出所述目标图像中文字的识别结果。优选地，所述第一空间变换网络与所述第二空间变换网络结构相同，包括：依次相连的本地网络、网格生成器以及采样器；所述本地网络的输入端为所述空间变换网络的输入端，所述采样器的输出端为所述空间变换网络的输出端；所述采样器包括两个输入端，分别与所述本地网络的输入端和所述网格生成器的输出端连接。优选地，所述训练样本集中包括尺寸相同的样本图像；所述图像中文字的识别装置还包括尺寸调整模块，用于将目标图像的尺寸统一调整为所述样本图像的尺寸。本专利技术实施例的技术方案，通过将目标图像输入文字识别模型，对目标图像提取第一深度的第一图像特征，然后对第一图像特征进行第一空间变换，得到第一空间变换矩阵；再对第一空间变换矩阵进行第二深度的图像特征提取，得到第二图像特征；然后对第二图像特征进行第二空间变换，得到第二空间变换矩阵，根据第二空间变换矩阵，得到对目标图像中包括的文字的识别结果，可以通过对第一图像特征进行的第一空间变换，以及对第二图像特征进行的第二空间变换，实现对目标图像的图像特征的校正，便于后续识别，提高了对目标图像中包括的文字的识别结果的识别准确率。附图说明图1a为本专利技术实施例提供的一种目标图像；图1b是利用霍夫变换对图1a所示的目标图像进行校正的效果图；图1c是利用空间变换网络对图1a所示的目标图像进行校正的效果图；图1d为本专利技术实施例提供的一种文字识别模型的示意图；图1e为本专利技术实施例提供的一种目标图像；图1f是仅使用一个空间变换网络对图1e所示的目标图像进行变换校正的效果图；图1g是通过第一空间变换网络和第二空间变换网络对图1e所示的目标图像进行变换校正的效果图；图1h为本专利技术实施例提供的一种目标图像；图1i是仅使用一个空间变换网络对图1h所示的目标图像进行变换校正的效果图；图1j是通过第一空间变换网络和第二空间变换网络对图1h所示的目标图像进行变换校正的效果图；图1k为本专利技术实施例提供的一种目标图像；图1l是仅使用一个空间变换网络对图1k所示的目标图像进行变换校正的效果图；图1m是通过第一空间变换网络和第二空间变换网络对图1k所示的目标图像进行变换校正的效果图；图1n为本专利技术实施例一提供的一种目标图像；图1o是本专利技术实施例一提供的对图1n所示的目标图像中包括的文字的识别结果的效果图；图1p为本专利技术实施例一提供的一种目标图像；图1q是本专利技术实施例一提供的对图1p所示的目标图像中包括的文字的识别结果的效果图；图2为本专利技术实施例一提供的一种图像中文字的识别装置的结构示意图；图3为本专利技术实施例二提供的一种图像中文字的识别装置的结构示意图。具体实施方式下面结合附图和实施例对本专利技术作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本专利技术，而非对本专利技术的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本专利技术相关的部分而非全部内容。为了便于理解，将本专利技术实施例的主要专利技术构思进行简述。在目标图像中包括的文字存在倾斜，扭曲或者背景不同的情况下，文字识别的准确率会受一定的影响。因此，通常需要对目标图像做一定的空间校正。传统的空间校正方法有利用霍夫变换进行图片校正。利用霍夫变换进行图片校正的方式具有多种超级参数，需要专业知识才能正确调整超级参数以获得最佳校正效果。示例性的，图1a为目标图像。利用霍夫变换对图1b所示的目标图像进行校正。图1b是利用霍夫变换进行校正的效果图，校正效果并不理想。空间变换网络(SpatialTransformerNetworks，STN)采用输入特征映射并对该特征映射应用空间变换，产生输出特征映射。空间变换网络由依次相连的本地网络(Localisationnet)、网格生成器(Gridgenerator)以及采样器(Sample)组成。本地网络决定输入特征所需的变换参数。网格生本文档来自技高网...

【技术保护点】
1.一种图像中文字的识别装置，其特征在于，对文字识别模型预先利用训练样本集进行训练，所述装置包括：/n图像输入模块，用于将目标图像输入所述文字识别模型；/n第一特征提取模块，用于对所述目标图像提取第一深度的第一图像特征；/n第一特征处理模块，用于对所述第一图像特征进行第一空间变换，得到第一空间变换矩阵；/n第二特征提取模块，用于对所述第一空间变换矩阵提取第二深度的第二图像特征，所述第二深度的图像特征提取使用的第一卷积层的层数大于所述第一深度；/n第二特征处理模块，用于对所述第二图像特征进行第二空间变换，得到第二空间变换矩阵；/n文字识别模块，用于根据所述第二空间变换矩阵，得到对所述目标图像中包括的文字的识别结果。/n

【技术特征摘要】
1.一种图像中文字的识别装置，其特征在于，对文字识别模型预先利用训练样本集进行训练，所述装置包括：
图像输入模块，用于将目标图像输入所述文字识别模型；
第一特征提取模块，用于对所述目标图像提取第一深度的第一图像特征；
第一特征处理模块，用于对所述第一图像特征进行第一空间变换，得到第一空间变换矩阵；
第二特征提取模块，用于对所述第一空间变换矩阵提取第二深度的第二图像特征，所述第二深度的图像特征提取使用的第一卷积层的层数大于所述第一深度；
第二特征处理模块，用于对所述第二图像特征进行第二空间变换，得到第二空间变换矩阵；
文字识别模块，用于根据所述第二空间变换矩阵，得到对所述目标图像中包括的文字的识别结果。

2.如权利要求1所述的装置，其特征在于，所述第一特征提取模块包括：
像素矩阵获取单元，用于获取所述目标图像的像素矩阵；
卷积计算单元，用于对所述像素矩阵进行预设窗口大小的卷积运算，得到所述第一图像特征。

3.如权利要求1所述的装置，其特征在于，所述第一特征处理模块和所述第二特征处理模块包括：
参数确定单元，用于根据所述第一图像特征以及预设的第一空间变换的形式，确定至少一个变换参数；
映射关系确定单元，用于根据所述变换参数，搜索确定输入特征与输出特征之间的映射关系；
矩阵变换单元，用于根据所述第一图像特征以及所述映射关系，得到第一空间变换矩阵。

4.如权利要求1所述的装置，其特征在于，所述第二特征提取模块包括：
特征矩阵...

【专利技术属性】
技术研发人员：茅心悦，
申请(专利权)人：上海智臻智能网络科技股份有限公司，
类型：发明
国别省市：上海;31

全部详细技术资料下载我是这个专利的主人