一种文字区域识别方法及装置制造方法及图纸

技术编号：22295957 阅读：73 留言：0更新日期：2019-10-15 05:02

本发明专利技术公开了一种文字区域识别方法及装置，涉及图像识别技术领域，能够对自然场景图像中的文字区域自动进行识别和标注。本发明专利技术主要的技术方案为：利用卷积神经网络对目标图像进行检测，得到目标图像的文字特征图像；通过在所述文字特征图像的像素点上设置至少一个文字候选框，得到所述文字候选框框定的第一特征区域；对文字候选框框定的第一特征区域进行第一次分类和第一次回归，得到框定了物体的文字候选框，所述物体至少包括文字。本发明专利技术用于识别图像中的文字区域。

A Method and Device for Character Region Recognition

全部详细技术资料下载

【技术实现步骤摘要】
一种文字区域识别方法及装置
本专利技术涉及图像识别
，尤其涉及一种文字区域识别方法及装置。
技术介绍
文字作为自然场景图像中的组成部分，往往蕴含着与该场景相关的重要信息。因此，对自然场景图像中的文字进行定位并识别，具有重要的实用价值。相对于识别传统扫描文档(如pdf)中的文字，识别自然场景图像中文字的难度更大，因为自然场景图像中除文字外还有各类背景，背景的复杂性越高，将背景与文字进行分离就越困难。如图1所示，图中的两幅图左侧的为扫描文档图像，而右侧的为自然场景图像，对比可以看出，自然场景图像中的文字在大小、排列、字体、出现方式等都没有统一的标准，并且，随着拍摄角度的不同，文字也会出现不同程度的倾斜、旋转、凸变等变形，同时，由于光照或曝光等因素的影响也会干扰对图像中文字区域的识别。目前，主要通过人工对自然场景图像中的文字区域进行识别和标注，这种方式效率较低，不适合对大批量自然场景图像进行处理。
技术实现思路
鉴于上述问题，本专利技术提出了一种文字区域识别方法及装置，主要目的在于对自然场景图像中的文字区域自动进行识别和标注。为达到上述目的，本专利技术主要提供如下技术方案：一方面，本专利技术提供一种文字区域识别方法，具体包括：利用卷积神经网络对目标图像进行检测，得到目标图像的文字特征图像；通过在所述文字特征图像的像素点上设置至少一个文字候选框，得到所述文字候选框框定的第一特征区域；对文字候选框框定的第一特征区域进行第一次分类和第一次回归，得到框定了物体的文字候选框，所述物体至少包括文字。另一方面，本专利技术提供一种文字区域识别装置，具体包括：文字特征图像检测单...

【技术保护点】
1.一种文字区域识别方法，其特征在于，所述方法包括：利用卷积神经网络对目标图像进行检测，得到目标图像的文字特征图像；通过在所述文字特征图像的像素点上设置至少一个文字候选框，得到所述文字候选框框定的第一特征区域；对文字候选框框定的第一特征区域进行第一次分类和第一次回归，得到框定了物体的文字候选框，所述物体至少包括文字。

【技术特征摘要】
1.一种文字区域识别方法，其特征在于，所述方法包括：利用卷积神经网络对目标图像进行检测，得到目标图像的文字特征图像；通过在所述文字特征图像的像素点上设置至少一个文字候选框，得到所述文字候选框框定的第一特征区域；对文字候选框框定的第一特征区域进行第一次分类和第一次回归，得到框定了物体的文字候选框，所述物体至少包括文字。2.根据权利要求1所述的方法，其特征在于，所述方法包括：获取所述框定了物体的文字候选框在所述文字特征图像上框定的第二特征区域；对所述第二特征区域进行第二次分类和第二次回归，得到框定了文字的文字候选框。3.根据权利要求1或2所述的方法，其特征在于，对文字候选框框定的第一特征区域进行第一次分类和第一次回归，得到框定了物体的文字候选框具体包括：通过预先训练的深度学习神经网络的第一全连接层，对文字候选框框定的第一特征区域进行第一次分类，得到框定了物体的文字候选框；通过所述第一全连接层对框定了物体的文字候选框进行回归，以将每个框定了物体的文字候选框的尺寸调整至能够框定一个物体。4.根据权利要求3所述的方法，其特征在于，对所述框定了物体的文字候选框框定的第二特征区域进行第二次分类和第二次回归，得到框定了文字的文字候选框包括：通过预先训练的深度学习神经网络的第二全连接层，对所述框定了物体的文字候选框框定的第二特征区域进行第二次分类，得到框定了文字的文字候选框；通过所述第二全连接层对框定了文字的文字候选框进行回归，以将每个文字候选框的尺寸调整至能够框定一个完整文字。5.根据权利要求4所述的方法，其特征在于，若所述目标图像中同一个文字上有两个以上的框定了文字的文字候选框，则所述方法进一步包括：对框定所述文字的文字候选框，利用非极大值抑制算法进行滤除，得到一个框定所述文字的文字候选框。6.一种文字区域识别装置，其特征在于，所述装置包括：文字特征图像检测单元，用于利用卷积神经网络对目标图像进行检测，得到目标图像的文字特征图像；文字候选框设置单元，用于通过在所述文字特征图像检测单元检测得到的文字特征图像的像素点上设置至少一个文字候选框，得到所述文字候选框框定的第一...

【专利技术属性】
技术研发人员：赵锟，郝志会，
申请(专利权)人：高德软件有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人