图像处理方法和装置制造方法及图纸

技术编号:9312354 阅读:98 留言:0更新日期:2013-11-06 18:46
提供了一种图像处理方法和装置。该图像处理方法包括步骤:生成图像的第一尺度的二值图,其中第一尺度小于图像的原始尺度;基于第一尺度的二值图,检测图像中的至少一个文本行;生成图像的第二尺度的二值图,其中第二尺度大于第一尺度;针对每个文本行,计算第一尺度的二值图中的相应部分与第二尺度的二值图中的相应部分之间的相似度,并将相似度低于预定水平的文本行作为噪声去除;针对未被去除的文本行中的一个或更多个,对第二尺度的二值图中的相应部分进行光学字符识别以确定相应文本行的文字取向;以及根据所确定的文字取向确定图像的取向。

【技术实现步骤摘要】

本专利技术一般涉及图像处理,更具体地,涉及用于识别文档图像的取向的方法和装置。
技术介绍
在对文档图像(诸如扫描页面)进行处理时,由于例如通过扫描仪、照相机等图像输入设备获取的文档图像有可能相对于其实际取向发生了旋转(例如,旋转了90°、180°、270°),因此需要对文档图像进行取向识别。下列文献提供了文档图像取向识别的方法的示例:Ranjith Unnikrishnan,“Combined Script and Page OrientationEstimation using the Tesseract OCR engine”,ICDAR2009;万鑫,“文本图像的校正方法”,CN 101833648A;Zhigang Fan,“Page orientation detection based on selective character recognition”,US 2009/0274392 A1。
技术实现思路
传统的方法所针对的对象主要是比较标准的文档图像,但如果待处理的文档图像是图文混杂,或者以图像为主的话,上面所列举的这些方法的处理效果就不佳了。本专利技术提供一种对文档图像进行取向识别方法和装置,其能够快速地以高准确度判断整个文档图像的取向。根据本专利技术的一个实施例,一种图像处理方法包括步骤:生成图像的第一尺度的二值图,其中第一尺度小于图像的原始尺度;基于第一尺度的二值图,检测图像中的至少一个文本行;生成图像的第二尺度的二值图,其中第二尺度大于第一尺度;针对每个文本行,计算第一尺度的二值图中的相应部分与第二尺度的二值图中的相应部分之间的相似度,并将相似度低于预定水平的文本行作为噪声去除;针对未被去除的文本行中的一个或更多个,对第二尺度的二值图中的相应部分进行光学字符识别以确定相应文本行的文字取向;以及根据所确定的文字取向确定图像的取向。根据本专利技术的另一个实施例,一种图像处理装置包括:第一尺度二值图生成部分,被配置为生成图像的第一尺度的二值图,其中第一尺度小于图像的原始尺度;文本行检测部分,被配置为基于第一尺度的二值图,检测图像中的至少一个文本行;第二尺度二值图生成部分,被配置为生成图像的第二尺度的二值图,其中第二尺度大于第一尺度;噪声去除部分,被配置为针对每个文本行,计算第一尺度的二值图中的相应部分与第二尺度的二值图中的相应部分之间的相似度,并将相似度低于预定水平的文本行作为噪声去除;光学字符识别部分,被配置为对第二尺度的二值图中的相应部分进行光学字符识别以确定相应文本行的文字取向;以及图像取向确定部分,被配置为根据所确定的文字取向确定图像的取向。附图说明参照以下结合附图对本专利技术实施例的说明,会更加容易地理解本专利技术的以上和其它目的、特点和优点。为了避免因不必要的细节而模糊了本专利技术,在附图中仅示出了与根据本专利技术的方案密切相关的装置结构和/或处理步骤,而省略了与本专利技术关系不大的其它细节。图1是图解根据本专利技术实施例的图像处理方法的流程图;图2a和图2b是示出文本行检测的示例的示意图;图3a至图3c是示出在水平文本行和竖直文本行重叠的情况下,基于重叠部分的文本块的取向确定噪声文本行的示例的示意图;图4a和图4b是分别示出利用基于二值图的像素投影和笔画投影来识别噪声文本行的示例的示意图;图5是示出基于第一尺度二值图和第二尺度二值图的比较来确定噪声文本行的示例的示意图;图6是图解根据本专利技术实施例的图像处理装置的配置示例的框图;以及图7是示出实现本专利技术的方法和装置的计算机的示例性结构的框图。具体实施方式下面参照附图说明本专利技术的实施例。应当注意,为了清楚的目的,附图和说明中省略了与本专利技术无关的、本领域普通技术人员已知的部件和处理的表示和描述。下面参照图1的流程图说明根据本专利技术实施例的图像处理方法的处理过程。在步骤S110,生成图像的第一尺度的二值图,其中第一尺度小于图像的原始尺度。这里,图像的尺度是指以像素为单位的图像尺寸,其中,大尺度对应于高分辨率,小尺度对应于低分辨率。可以通过对处理目标图像的灰度图像进行下采样和二值化来生成第一尺度二值图。其中,可以采用多种方式对图像进行下采样,例如,可以将图像缩小为其原尺度的1/N,或者将图像缩小到某个指定的尺度。另外,可以采用多种已有方法进行图像的二值化处理,例如:Otsu方法(http://en.wikipedia.org/wiki/Otsu's_method);或者J.Sauvola,M.Pietikainen,“Adaptive document image binarization”,Pattern Recognition 33,2000,pp.225-236中所述的方法。接下来,在步骤S120,基于第一尺度的二值图,检测图像中的至少一个文本行。基于小尺度的二值图进行文本行检测的一个目的是提高文本行检测的速度。可以采用本领域已知的多种方法基于二值图检测图像中的文本行。下面结合图2描述一种示例方式:首先,通过连通部件(CC)分析找出二值图中的连通部件,可以利用连通部件的大小过滤掉一些明显不属于文字的连通部件。然后,基于经过滤的连通部件检测可能的水平文本行和竖直文本行。以检测水平文本行为例,如图2所示,可以选择某一连通部件作为初始连通部件,以初始连通部件的大小作为初始文本行的大小,分别向左和向右进行搜索。搜索的范围可以由当前文本行的高度决定,例如,搜索高度可以设置为初始连通部件的高度tl h,搜索宽度可以设置为2×tl_h。如果在该搜索范围内存在目标连通部件,则比较该目标连通部件和当前文本行沿水平方向的投影的重合度(例如在图2b中,tl_h和cc_h沿水平方向的投影的重合部分的比例),如果该重合度在预定的范围内,则将候选连通部件加入到当前文本行中,将文本行的范围进行更新,并继续向左或向右搜索,直到搜索范围内没有符合条件的连通部件为止。另外,竖直方向的文本行检测也可以通过类似方式实现。应理解,本专利技术的方法和装置可采用的检测文本行的方式不限于上述具体方式,也可以采用本领域已知的其它方法,例如基于投影的方法、基于纹理的方法等。另外,在基于第一尺度的二值图分别检测水平文本行和竖直文本行时,有可能出现这样的情况:某一区域内的联通部件既被检测为水平文本行的部分,又被检测为竖直文本行的部分,也就是说,检测出的某些水平本文档来自技高网...
<a href="http://www.xjishu.com/zhuanli/55/201210137925.html" title="图像处理方法和装置原文来自X技术">图像处理方法和装置</a>

【技术保护点】
一种图像处理方法,包括步骤:生成图像的第一尺度的二值图,其中所述第一尺度小于所述图像的原始尺度;基于所述第一尺度的二值图,检测所述图像中的至少一个文本行;生成所述图像的第二尺度的二值图,其中所述第二尺度大于所述第一尺度;针对每个所述文本行,计算所述第一尺度的二值图中的相应部分与所述第二尺度的二值图中的相应部分之间的相似度,并将所述相似度低于预定水平的文本行作为噪声去除;针对未被去除的所述文本行中的一个或更多个,对所述第二尺度的二值图中的相应部分进行光学字符识别以确定相应文本行的文字取向;以及根据所述文字取向确定所述图像的取向。

【技术特征摘要】
1.一种图像处理方法,包括步骤:
生成图像的第一尺度的二值图,其中所述第一尺度小于所述图像的原
始尺度;
基于所述第一尺度的二值图,检测所述图像中的至少一个文本行;
生成所述图像的第二尺度的二值图,其中所述第二尺度大于所述第一
尺度;
针对每个所述文本行,计算所述第一尺度的二值图中的相应部分与所
述第二尺度的二值图中的相应部分之间的相似度,并将所述相似度低于预
定水平的文本行作为噪声去除;
针对未被去除的所述文本行中的一个或更多个,对所述第二尺度的二
值图中的相应部分进行光学字符识别以确定相应文本行的文字取向;以及
根据所述文字取向确定所述图像的取向。
2.如权利要求1所述的方法,在确定所述文字取向的步骤之前还包
括步骤:基于所述第二尺度的二值图,根据以下因素中的一个或更多个确
定所述文本行的优先级:
文本行的尺寸;
基于纹理确定的文本行置信度;以及
文本行的灰度方差,并且
在确定所述文字取向的步骤中,按照所述优先级的顺序依次确定所述
文本行的文字取向。
3.如权利要求2所述的方法,在根据所述文字取向确定所述图像的
取向的步骤中,通过以下方式确定所述图像的取向:
根据按照所述优先级的顺序依次确定的所述文字取向进行投票,并且
当得票最多的取向的票数与得票第二多的取向的票数之差达到预定
阈值时,将所述图像的取向确定为所述得票最多的取向,如果投票过程中
未检测到所述票数之差达到所述预定阈值,则将所述图像的取向确定为最
终得票最多的取向。
4.如权利要求1所述的方法,其中,基于所述第一尺度的二值图检
测文本行的步骤还包括:基于所述第一尺度的二值图,利用基于纹理的方
法和/或二值投影方法估计所述文本行的置信度,并将置信度低于预定水
平的文本行作为噪声去除。
5.如权利要求1所述的方法,在生成所述第二尺度的二值图的步骤
之后还包括步骤:
基于所述第二尺度的二值图,利用二值投影方法估计所述文本行的置
信度,并将置信度低于预定水平的文本行作为噪声去除。
6.如权利要求1-5中任一项所述的方法,其中,仅针对长宽比大于
预定阈值的文本行中尺寸最大的N个文本行执行基...

【专利技术属性】
技术研发人员:孙俊潘屹峰直井聪
申请(专利权)人:富士通株式会社
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1