对图片中的文字进行识别的方法及装置制造方法及图纸

技术编号:15033498 阅读:65 留言:0更新日期:2017-04-05 09:24
本公开关于一种对图片中的文字进行识别的方法及装置,涉及图像处理领域。包括:获取待识别的图片;对图片进行多次缩放得到不同尺寸的多个缩放图片;基于用于检测图片中以任一像素为中心的指定尺寸的区域是否为文字的第一预设卷积神经网络,确定多个缩放图片中每个缩放图片中的文字候选区;基于用于进行文字识别的第二预设卷积神经网络识别每个缩放图片的文字候选区中的文字。基于预先训练得到的第一预设卷积神经网络检测待识别图片的缩放图片,得到文字候选区后,进一步基于预先训练得到的第二预设卷积神经网络识别文字候选区中的文字,不仅识别方式比较简单,而且由于卷积神经网络可以直接输入原始图片,使得识别过程比较快捷,识别效率比较高。

【技术实现步骤摘要】

本公开涉及图像处理
,尤其涉及一种对图片中的文字进行识别的方法及装置。
技术介绍
图片中的文字往往包含着重要的语义信息,其在信息检索、自动驾驶汽车等领域有着重要的作用。例如,识别出照片中的门牌号、街道和商店的标牌后,可以为自动驾驶汽车提供所在场景的位置信息。又例如,识别出视频帧中出现的文字后,有助于快速进行大量的视频检索等。因此,如何识别图片中的文字受到社会各界的广泛关注。
技术实现思路
为克服相关技术中存在的问题,本公开提供一种对图片中的文字进行识别的方法及装置。根据本公开实施例的第一方面,提供一种对图片中的文字进行识别的方法,所述方法包括:获取待识别的图片;对所述图片进行多次缩放,得到不同尺寸的多个缩放图片;基于第一预设卷积神经网络,确定所述多个缩放图片中每个缩放图片中的文字候选区,所述第一预设卷积神经网络用于检测图片中以任一像素为中心的指定尺寸的区域是否为文字;基于第二预设卷积神经网络识别所述每个缩放图片的文字候选区中的文字,所述第二预设卷积神经网络用于进行文字识别。基于预先训练得到的第一预设卷积神经网络检测待识别图片的缩放图片,得到文字候选区后,进一步基于预先训练得到的第二预设卷积神经网络识别文字候选区中的文字,不仅识别方式比较简单,而且由于卷积神经网络可以直接输入原始图片,使得识别过程比较快捷,识别效率高。可选地,所述基于第二预设卷积神经网络识别所述每个缩放图片的文字候选区中的文字之前,还包括:通过存储的多个训练图片对待训练的第二卷积神经网络中每个卷积层的参数和分类层的参数进行训练,所述第二卷积神经网络包括四个卷积层和一个分类层,每个训练图片中包括至少一个指定尺寸的文字区域;判断训练后的所述第二卷积神经网络的运行参数是否达到第一指定要求;当训练后的所述第二卷积神经网络的运行参数达到所述第一指定要求时,将训练后的所述第二卷积神经网络确定为所述第二预设卷积神经网络。通过设置第二卷积神经网络包括四个卷积层和一个分类层,使得第二预设卷积神经网络全部由卷基层构成,而不包括池化层和全连接层,使得该第二预设卷积神经网络能够处理任意尺寸的图片,适用范围较广。可选地,所述基于第一预设卷积神经网络,确定所述多个缩放图片中每个缩放图片中的文字候选区之前,还包括:获取所述第二预设卷积神经网络的前两个卷积层的参数,并将所述第二预设卷积神经网络的前两个卷积层的参数分别作为所述第一预设卷积神经网络的前两个卷积层的参数;通过所述多个训练图片对待训练的第一卷积神经网络的后两个卷积层的参数和分类层的参数进行训练,所述第一卷积神经网络包括四个卷积层和一个分类层;判断训练后的所述第一卷积神经网络的运行参数是否达到第二指定要求;当训练后的所述第一卷积神经网络的运行参数达到所述第二指定要求时,将训练后的所述第一卷积神经网络确定为所述第一预设卷积神经网络。通过设置第一卷积神经网络包括四个卷积层和一个分类层,使得第一预设卷积神经网络全部由卷基层构成,而不包括池化层和全连接层,使得该第一预设卷积神经网络能够处理任意尺寸的图片,适用范围较广。由于第二预设卷积神经网络用于进行文字识别,且能够识别的文字数量通常比较大,因而其分类层的输出结果比较多,使得在训练第二卷积神经网络时,能够训练得到比较精准且判别性更强的参数。在此基础上,将第二预设卷积神经网络的前两个卷积层的参数分别作为第一预设卷积神经网络的前两个卷积层的参数,能够减少训练第一卷积神经网络时的参数个数和计算量。可选地,所述基于第一预设卷积神经网络,确定所述多个缩放图片中每个缩放图片中的文字候选区,包括:将所述多个缩放图片中的每个缩放图片输入至所述第一预设卷积神经网络中,得到所述每个缩放图片的概率图;通过非最大值抑制算法对所述每个缩放图片的概率图进行处理,得到所述每个缩放图片中的初始文字候选区;对所述初始文字候选区进行过滤,得到所述每个缩放图片中的文字候选区。通过对每个缩放图片的概率图进行处理,并对初始文字候选区进行过滤,可以确保得到置信度比较高的文字候选区,从而能够减少后续进行文字识别时的文字候选区的数量,进而能够加快识别速度,提高识别效果。可选地,所述第二卷积神经网络中的分类层为softmax分类层,所述通过存储的多个训练图片对待训练的第二卷积神经网络中每个卷积层的参数和分类层的参数进行训练,包括:通过存储的多个训练图片,通过随机梯度下降算法和softmax损失函数对待训练的第二卷积神经网络中每个卷积层的参数和softmax分类层的参数进行训练。可选地,所述第一卷积神经网络中的分类层为softmax分类层,所述通过所述多个训练图片对待训练的第一卷积神经网络的后两个卷积层的参数和分类层的参数进行训练,包括:通过所述多个训练图片,通过随机梯度下降算法和softmax损失函数对待训练的第一卷积神经网络的后两个卷积层的参数和softmax分类层的参数进行训练。根据本公开实施例的第二方面,提供一种对图片中的文字进行识别的装置,所述装置包括:第一获取模块,用于获取待识别的图片;缩放模块,用于对所述图片进行多次缩放,得到不同尺寸的多个缩放图片;第一确定模块,用于基于第一预设卷积神经网络,确定所述多个缩放图片中每个缩放图片中的文字候选区,所述第一预设卷积神经网络用于检测图片中以任一像素为中心的指定尺寸的区域是否为文字;识别模块,用于基于第二预设卷积神经网络识别所述每个缩放图片的文字候选区中的文字,所述第二预设卷积神经网络用于进行文字识别。可选地,所述装置还包括:第一训练模块,用于通过存储的多个训练图片对待训练的第二卷积神经网络中每个卷积层的参数和分类层的参数进行训练,所述第二卷积神经网络包括四个卷积层和一个分类层,每个训练图片中包括至少一个指定尺寸的文字区域;第一判断模块,用于判断训练后的所述第二卷积神经网络的运行参数是否达到第一指定要求;第二确定模块,用于当训练后的所述第二卷积神经网络的运行参数达到所述第一指定要求时,将训练后的所述第二卷积神经网络确定为所述第二预设卷积神经网络。可选地,所述装置还包括:第二获取模块,用于获取所述第二预设卷积神经网络的前两个卷积层的参数,并将所述第二预设卷积神经网络的前两个卷积层的参数分别作为所述第一预设卷积神经网络的前两个卷积层的参数;第二训练模块,用于通过所述多个训练图片对待训练的第一卷积神经网络的后两个卷积层的参数和分类层的参数进行训练,所述第一卷积神经网络包括四个卷积层和一个分类层;第二判断模块,用于判断训练后的所述第一卷积神经网络的运行参数是否达到第二指定要求;第三确定模块,用于当训练后的所述第一卷积神经网络的运行参数达到所述第二指定要求时,将训练后的所述第一卷积神经网络确定为所述第一预设卷积神经网络。可选地,所述第一确定模块包括:输入子模块,用于将所述多个缩放图片中的每个缩放图片输入至所述第一预设卷积神经网络中,得到所述每个缩放图片的概率图;处理子模块,用于通过非最大值抑制算法对所述每个缩放图片的概率图进行处理,得到所述每个缩放图片中的初始文字候选区;过滤子模块,用于对所述初始文字候选区进行过滤,得到所述每个缩放图片中的文字候选区。可选地,所述第二卷积神经网络中的分类层为softmax分类层,所述第一训练模块用于:通过存储的多个训练图片,通本文档来自技高网...

【技术保护点】
一种对图片中的文字进行识别的方法,其特征在于,所述方法包括:获取待识别的图片;对所述图片进行多次缩放,得到不同尺寸的多个缩放图片;基于第一预设卷积神经网络,确定所述多个缩放图片中每个缩放图片中的文字候选区,所述第一预设卷积神经网络用于检测图片中以任一像素为中心的指定尺寸的区域是否为文字;基于第二预设卷积神经网络识别所述每个缩放图片的文字候选区中的文字,所述第二预设卷积神经网络用于进行文字识别。

【技术特征摘要】
1.一种对图片中的文字进行识别的方法,其特征在于,所述方法包括:获取待识别的图片;对所述图片进行多次缩放,得到不同尺寸的多个缩放图片;基于第一预设卷积神经网络,确定所述多个缩放图片中每个缩放图片中的文字候选区,所述第一预设卷积神经网络用于检测图片中以任一像素为中心的指定尺寸的区域是否为文字;基于第二预设卷积神经网络识别所述每个缩放图片的文字候选区中的文字,所述第二预设卷积神经网络用于进行文字识别。2.根据权利要求1所述的方法,其特征在于,所述基于第二预设卷积神经网络识别所述每个缩放图片的文字候选区中的文字之前,还包括:通过存储的多个训练图片对待训练的第二卷积神经网络中每个卷积层的参数和分类层的参数进行训练,所述第二卷积神经网络包括四个卷积层和一个分类层,每个训练图片中包括至少一个指定尺寸的文字区域;判断训练后的所述第二卷积神经网络的运行参数是否达到第一指定要求;当训练后的所述第二卷积神经网络的运行参数达到所述第一指定要求时,将训练后的所述第二卷积神经网络确定为所述第二预设卷积神经网络。3.根据权利要求2所述的方法,其特征在于,所述基于第一预设卷积神经网络,确定所述多个缩放图片中每个缩放图片中的文字候选区之前,还包括:获取所述第二预设卷积神经网络的前两个卷积层的参数,并将所述第二预设卷积神经网络的前两个卷积层的参数分别作为所述第一预设卷积神经网络的前两个卷积层的参数;通过所述多个训练图片对待训练的第一卷积神经网络的后两个卷积层的参数和分类层的参数进行训练,所述第一卷积神经网络包括四个卷积层和一个分类层;判断训练后的所述第一卷积神经网络的运行参数是否达到第二指定要求;当训练后的所述第一卷积神经网络的运行参数达到所述第二指定要求时,将训练后的所述第一卷积神经网络确定为所述第一预设卷积神经网络。4.根据权利要求1所述的方法,其特征在于,所述基于第一预设卷积神经网络,确定所述多个缩放图片中每个缩放图片中的文字候选区,包括:将所述多个缩放图片中的每个缩放图片输入至所述第一预设卷积神经网络中,得到所述每个缩放图片的概率图;通过非最大值抑制算法对所述每个缩放图片的概率图进行处理,得到所述每个缩放图片中的初始文字候选区;对所述初始文字候选区进行过滤,得到所述每个缩放图片中的文字候选区。5.根据权利要求2所述的方法,其特征在于,所述第二卷积神经网络中的分类层为softmax分类层,所述通过存储的多个训练图片对待训练的第二卷积神经网络中每个卷积层的参数和分类层的参数进行训练,包括:通过存储的多个训练图片,通过随机梯度下降算法和softmax损失函数对待训练的第二卷积神经网络中每个卷积层的参数和softmax分类层的参数进行训练。6.根据权利要求3所述的方法,其特征在于,所述第一卷积神经网络中的分类层为softmax分类层,所述通过所述多个训练图片对待训练的第一卷积神经网络的后两个卷积层的参数和分类层的参数进行训练,包括:通过所述多个训练图片,通过随机梯度下降算法和softmax损失函数对待训练的第一卷积神经网络的后两个卷积层的参数和softmax分类层的参数进行训练。7.一种对图片中的文字进行识别的装置,其特征在于,所述装置包括:第一获取模块,用于获取待识别的图片;缩放模块,用于对所述图片进行多次缩放,得到不同尺寸的多个缩放图片;第一确定模...

【专利技术属性】
技术研发人员:杨松
申请(专利权)人:北京小米移动软件有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1