对图片中的文字进行识别的方法及装置制造方法及图纸

技术编号：15033498 阅读：65 留言：0更新日期：2017-04-05 09:24

本公开关于一种对图片中的文字进行识别的方法及装置，涉及图像处理领域。包括：获取待识别的图片；对图片进行多次缩放得到不同尺寸的多个缩放图片；基于用于检测图片中以任一像素为中心的指定尺寸的区域是否为文字的第一预设卷积神经网络，确定多个缩放图片中每个缩放图片中的文字候选区；基于用于进行文字识别的第二预设卷积神经网络识别每个缩放图片的文字候选区中的文字。基于预先训练得到的第一预设卷积神经网络检测待识别图片的缩放图片，得到文字候选区后，进一步基于预先训练得到的第二预设卷积神经网络识别文字候选区中的文字，不仅识别方式比较简单，而且由于卷积神经网络可以直接输入原始图片，使得识别过程比较快捷，识别效率比较高。

全部详细技术资料下载

【技术实现步骤摘要】

本公开涉及图像处理
，尤其涉及一种对图片中的文字进行识别的方法及装置。
技术介绍
图片中的文字往往包含着重要的语义信息，其在信息检索、自动驾驶汽车等领域有着重要的作用。例如，识别出照片中的门牌号、街道和商店的标牌后，可以为自动驾驶汽车提供所在场景的位置信息。又例如，识别出视频帧中出现的文字后，有助于快速进行大量的视频检索等。因此，如何识别图片中的文字受到社会各界的广泛关注。
技术实现思路
为克服相关技术中存在的问题，本公开提供一种对图片中的文字进行识别的方法及装置。根据本公开实施例的第一方面，提供一种对图片中的文字进行识别的方法，所述方法包括：获取待识别的图片；对所述图片进行多次缩放，得到不同尺寸的多个缩放图片；基于第一预设卷积神经网络，确定所述多个缩放图片中每个缩放图片中的文字候选区，所述第一预设卷积神经网络用于检测图片中以任一像素为中心的指定尺寸的区域是否为文字；基于第二预设卷积神经网络识别所述每个缩放图片的文字候选区中的文字，所述第二预设卷积神经网络用于进行文字识别。基于预先训练得到的第一预设卷积神经网络检测待识别图片的缩放图片，得到文字候选区后，进一步基于预先训练得到的第二预设卷积神经网络识别文字候选区中的文字，不仅识别方式比较简单，而且由于卷积神经网络可以直接输入原始图片，使得识别过程比较快捷，识别效率高。可选地，所述基于第二预设卷积神经网络识别所述每个缩放图片的文字候选区中的文字之前，还包括：通过存储的多个训练图片对待训练的第二卷积神经网络中每个卷积层的参数和分类层的参数进行训练，所述第二卷积神经网络包括四个卷积层和一个分类层，每个训练图片...

【技术保护点】
一种对图片中的文字进行识别的方法，其特征在于，所述方法包括：获取待识别的图片；对所述图片进行多次缩放，得到不同尺寸的多个缩放图片；基于第一预设卷积神经网络，确定所述多个缩放图片中每个缩放图片中的文字候选区，所述第一预设卷积神经网络用于检测图片中以任一像素为中心的指定尺寸的区域是否为文字；基于第二预设卷积神经网络识别所述每个缩放图片的文字候选区中的文字，所述第二预设卷积神经网络用于进行文字识别。

【技术特征摘要】
1.一种对图片中的文字进行识别的方法，其特征在于，所述方法包括：获取待识别的图片；对所述图片进行多次缩放，得到不同尺寸的多个缩放图片；基于第一预设卷积神经网络，确定所述多个缩放图片中每个缩放图片中的文字候选区，所述第一预设卷积神经网络用于检测图片中以任一像素为中心的指定尺寸的区域是否为文字；基于第二预设卷积神经网络识别所述每个缩放图片的文字候选区中的文字，所述第二预设卷积神经网络用于进行文字识别。2.根据权利要求1所述的方法，其特征在于，所述基于第二预设卷积神经网络识别所述每个缩放图片的文字候选区中的文字之前，还包括：通过存储的多个训练图片对待训练的第二卷积神经网络中每个卷积层的参数和分类层的参数进行训练，所述第二卷积神经网络包括四个卷积层和一个分类层，每个训练图片中包括至少一个指定尺寸的文字区域；判断训练后的所述第二卷积神经网络的运行参数是否达到第一指定要求；当训练后的所述第二卷积神经网络的运行参数达到所述第一指定要求时，将训练后的所述第二卷积神经网络确定为所述第二预设卷积神经网络。3.根据权利要求2所述的方法，其特征在于，所述基于第一预设卷积神经网络，确定所述多个缩放图片中每个缩放图片中的文字候选区之前，还包括：获取所述第二预设卷积神经网络的前两个卷积层的参数，并将所述第二预设卷积神经网络的前两个卷积层的参数分别作为所述第一预设卷积神经网络的前两个卷积层的参数；通过所述多个训练图片对待训练的第一卷积神经网络的后两个卷积层的参数和分类层的参数进行训练，所述第一卷积神经网络包括四个卷积层和一个分类层；判断训练后的所述第一卷积神经网络的运行参数是否达到第二指定要求；当训练后的所述第一卷积神经网络的运行参数达到所述第二指定要求时，将训练后的所述第一卷积神经网络确定为所述第一预设卷积神经网络。4.根据权利要求1所述的方法，其特征在于，所述基于第一预设卷积神经网络，确定所述多个缩放图片中每个缩放图片中的文字候选区，包括：将所述多个缩放图片中的每个缩放图片输入至所述第一预设卷积神经网络中，得到所述每个缩放图片的概率图；通过非最大值抑制算法对所述每个缩放图片的概率图进行处理，得到所述每个缩放图片中的初始文字候选区；对所述初始文字候选区进行过滤，得到所述每个缩放图片中的文字候选区。5.根据权利要求2所述的方法，其特征在于，所述第二卷积神经网络中的分类层为softmax分类层，所述通过存储的多个训练图片对待训练的第二卷积神经网络中每个卷积层的参数和分类层的参数进行训练，包括：通过存储的多个训练图片，通过随机梯度下降算法和softmax损失函数对待训练的第二卷积神经网络中每个卷积层的参数和softmax分类层的参数进行训练。6.根据权利要求3所述的方法，其特征在于，所述第一卷积神经网络中的分类层为softmax分类层，所述通过所述多个训练图片对待训练的第一卷积神经网络的后两个卷积层的参数和分类层的参数进行训练，包括：通过所述多个训练图片，通过随机梯度下降算法和softmax损失函数对待训练的第一卷积神经网络的后两个卷积层的参数和softmax分类层的参数进行训练。7.一种对图片中的文字进行识别的装置，其特征在于，所述装置包括：第一获取模块，用于获取待识别的图片；缩放模块，用于对所述图片进行多次缩放，得到不同尺寸的多个缩放图片；第一确定模...

【专利技术属性】
技术研发人员：杨松，
申请(专利权)人：北京小米移动软件有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人