一种从图像中提取文字行的方法及装置制造方法及图纸

技术编号：8323825 阅读：226 留言：0更新日期：2013-02-14 02:54

本发明专利技术提供了一种从图像中提取文字行的方法及装置，其中从图像中提取文字行的方法包括：A.对图像进行二值化处理，以得到所述图像的各个连通域；B.对不满足第一统计特征的连通域进行过滤，其中所述第一统计特征是对标注好的样本中提取的连通域描述特征进行统计学习后得到的属于文字连通域的统计特征；C.从过滤后的各个连通域中提取所述图像中的文字行。通过上述方式，本发明专利技术可以大大提高从图像中提取的文字行的准确性。

全部详细技术资料下载

【技术实现步骤摘要】
一种从图像中提取文字行的方法及装置
本专利技术涉及图像处理技术，特别涉及一种从图像中提取文字行的方法及装置。
技术介绍
从图像中提取文字行，除了可应用于扫描文件的文字识别当中，也可以应用在自然场景图像的文字识别当中。文字行提取的准确与否，直接决定了文字识别的效果好坏。作为现有技术，中国专利技术专利申请号为201010568411.2的专利文件公开了一种从图像中提取文字行的方法。从该专利文件中可以看出，现有技术是通过将图像二值化，然后直接在二值化图像的连通域中提取文字行来实现文字行提取的目的的。现有技术的文字行提取方法，由于没有考虑自然场景图像中存在的大量非文字区域的噪声影响，因此，在很多自然场景图像的文字行提取中，准确性较差，从而严重影响了在这些图像中进行文字识别的效果。
技术实现思路
本专利技术所要解决的技术问题是提供一种从图像中提取文字行的方法及装置，以解决现有技术在从图像中提取文字行时存在的准确性差的技术问题。本专利技术为解决技术问题而采用的技术方案是提供一种从图像中提取文字行的方法，包括：A.对图像进行二值化处理，以得到所述图像的各个连通域；B.对不满足第一统计特征的连通域进行过滤，其中所述第一统计特征是对标注好的样本中提取的连通域描述特征进行统计学习后得到的属于文字连通域的统计特征；C.从过滤后的各个连通域中提取所述图像中的文字行。根据本专利技术之一优选实施例，所述方法所述步骤B前进一步包括：D．对不满足预设的噪声过滤规则的连通域进行过滤。根据本专利技术之一优选实施例，所述噪声过滤规则包括：连通域的大小在预设区间，且该连通域在水平或垂直方...
一种从图像中提取文字行的方法及装置

【技术保护点】
一种从图像中提取文字行的方法，包括：A.对图像进行二值化处理，以得到所述图像的各个连通域；B.对不满足第一统计特征的连通域进行过滤，其中所述第一统计特征是对标注好的样本中提取的连通域描述特征进行统计学习后得到的属于文字连通域的统计特征；C.从过滤后的各个连通域中提取所述图像中的文字行。

【技术特征摘要】
1.一种从图像中提取文字行的方法，包括：A.对图像进行二值化处理，以得到所述图像的各个连通域；B.对不满足第一统计特征的连通域进行过滤，其中所述第一统计特征是对标注好的样本中提取的连通域描述特征进行统计学习后得到的属于文字连通域的统计特征；C.从过滤后的各个连通域中提取所述图像中的文字行；所述方法所述步骤B前进一步包括：D.对不满足预设的噪声过滤规则的连通域进行过滤；所述噪声过滤规则包括：连通域的大小在预设区间，且该连通域在水平或垂直方向存在另外的至少一个满足预设大小和预设相邻距离的邻近连通域。2.根据权利要求1所述的方法，其特征在于，从过滤后的各个连通域中提取所述图像中的文字行的步骤包括：从过滤后的各个连通域中提取初始文字行；将所述初始文字行作为输入文字行，并利用所述输入文字行在执行所述步骤B前的连通域中扩展召回，得到扩展文字行；对不满足第二统计特征的扩展文字行进行过滤，得到最终的文字行，其中所述第二统计特征是对标注好的样本中提取的区域描述特征进行统计学习后得到的属于文字行的统计特征。3.根据权利要求1所述的方法，其特征在于，从过滤后的各个连通域中提取所述图像中的文字行的步骤包括：从过滤后的各个连通域中提取初始文字行；对不满足第二统计特征的初始文字行进行过滤，得到滤后文字行，其中所述第二统计特征是对标注好的样本中提取的区域描述特征进行统计学习后得到的属于文字行的统计特征；将滤后文字行作为输入文字行，并利用所述输入文字行在执行所述步骤B前的连通域中扩展召回，得到最终的文字行。4.根据权利要求2或3所述的方法，其特征在于，从过滤后的各个连通域中提取初始文字行的步骤包括：将水平方向上连续的连通域提取出来形成横向的连通域集合，并基于横向的连通域集合包含的连通域数目确定横向的连通域集合的权重；将垂直方向上连续的连通域提取出来形成竖向的连通域集合，并基于竖向的连通域集合包含的连通域数目确定竖向的连通域集合的权重；利用横向与竖向相交的连通域集合各自的权重对交集中的连通域进行归并处理，并将归并处理后的各个连通域集合提取出来作为图像中的初始文字行。5.根据权利要求4所述的方法，其特征在于，利用横向与竖向相交的连通域集合各自的权重对交集中的连通域进行归并处理的步骤包括：将交集中的连通域保留在权重较高的连通域集合中，并将交集中的连通域从权重较低的连通域集合中删除；对被删除连通域的连通域集合进行后处理，所述后处理至少包括以下一种：将空的连通域集合删除，或将由不连续的连通域构成的连通域集合拆分为至少两个由连续的连通域构成的连通域集合。6.根据权利要求2或3所述的方法，其特征在于，利用所述输入文字行在执行所述步骤B前的连通域中扩展召回的步骤包括：从执行所述步骤B前的连通域中提取大小满足要求、与横向的输入文字行中的任意连通域在同一水平方向且相邻距离满足要求的连通域加入到横向的输入文字行；以及，从执行所述步骤B前的连通域中提取大小满足要求、与竖向的输入文字行中的任意连通域在同一垂直方向且相邻距离满足要求的连通域加入到竖向的输入文字行。7.一种从图像中提取文字行的装置，包括：二值化单元，用于对图像进行二值化处理，以得到所...

【专利技术属性】
技术研发人员：韩钧宇，刘经拓，丁二锐，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人