当前位置: 首页 > 专利查询>北京大学专利>正文

一种图片文字分割的方法技术

技术编号:2927283 阅读:1541 留言:0更新日期:2012-04-11 18:40
本发明专利技术提供了一种图片文字分割的方法,用于把图片文字检测的结果由文字区域图片转换成可以被OCR软件识别的二值图片,包括以下步骤:(一)对文字区域图片进行颜色分量选择;在所选择的颜色分量上,文字最为清晰;(二)在步骤(一)选取的颜色分量上,对文字区域图片进行二值化;(三)对步骤(二)得到的二值图片进行去噪。本发明专利技术能自适应地选取有利于二值化的颜色分量,从而取得更好的二值化效果;同时利用基于颜色的聚类方法去除噪声,能够得到更为清晰,噪声较少的二值文字图片,从而得到更好的图片文字识别结果。

【技术实现步骤摘要】

本专利技术属于图像处理和检索
,具体涉及一种图片文字分割 的方法。
技术介绍
随着互联网技术和多媒体技术的快速发展,互联网上的图片内容呈 现爆炸性增长趋势,如何在这海量的图片内容中快速检索到想要的图 片,成为了一个急需解决的关键问题。现有的方法主要基于图片对应网 页中的文字描述信息,而没有深入到图片内容的分析中去。这种方法存在以下缺点(1 )如何在网页中找到能够准确描述图片内容的文字信息 本身就是一件很困难的事情;(2)大量的图片没有对应的网页信息。另 一方面,大量的图片含有文字信息,这些文字信息一般能准确描述图片 的内容,如果能识别这些文字,用这些文字信息对图片进行索引和检索, 必将大大推动互联网图片搜索技术的发展。因此,图片文字冲企测和识别 技术具有十分重要的研究和应用价值。要对图片中的文字进行识别,先得把图片中的文字从背景中分割出 来,转换成可供OCR软件识别的二值图片。图片文字分割方法主要包括 两个部分二值化和去噪。现有方法主要采用了基于阈值的二值化方法, 这种方法选择在彩色图片的固定颜色分量上进行二值化操作,但并不合 理,因为对于某些颜色的文字图片来说,其它的颜色分量更适合于二值 化,如果能够自适应地选择对二值化较好的颜色分量,将会有利于二值 图片的生成;另外,现有的噪声去除方法主要利用了连通分量的几何特 征和灰度值特征,然而,当噪声的这些特征和文字笔画都相似的时候, 这种方法就失效了。另一方面,图片中含有丰富的彩色信息,文字笔画 和噪声的颜色一般具有差异,通过对连通分量颜色特征的分析,可以有 效地去除噪声。2005年在IEEE Transactions on Circuits and Systems for Video Technology上发表的文献"A comprehensive method for multilingual video text detection, localization, and extraction"(作者是Michael R. Lyu, Jiqiang Song, Min Cai,页石马是243-254 ),才是出了 。该文献首先利用边缘检测算子求得视频图像的边缘图,然后用分析 边缘投影图的波峰和波谷的方法来找到可能的文字区域。基于文字区域 检测的结果,在固定的颜色分量上对文字区域图片进行二值化,并且利 用连通分量的几何特征去除噪声。该方法对于背景复杂、文字对比度较 弱的文字区域,分割得到的二值图片效果较差,含有较多噪声,因此适应 面并不广,文字分割的效果还需要提高。
技术实现思路
针对现有技术的不足,本专利技术提出了,用 于把图片文字检测的结果由文字区域图片转换为可以供OCR软件识别的 二值图片。该方法充分利用了图片中的彩色信息进行二值化和噪声去 除,相比现有方法,可以获得更为清晰,噪声更少的二值文字图片,从 而有利于用OCR软件进行识别。为达到以上目的,本专利技术的技术方案如下,用于把图片文字检测的结果由文字区域 图片转换成可以被OCR软件识别的二值图片,包括以下步骤(1)对文字区域图片进行颜色分量选择;在所选择的颜色分量上, 文字最为清晰;(2 )在步骤(1)选取的颜色分量上,对文字区域图片进行二值化, 得到二值图片;(3 )对步骤(2 )得到的二值图片进行去噪。进一步,上述的,所述步骤(l)与步骤 (2)之间增加如下步骤对图片中文字灰度值的深浅进行判断,如果 是浅色的文字,则反转文字区域图片的灰度值,否则灰度值不变。这样 保证了在进行二值化之前,图片中的文字总是深色的,灰度值较小,有 利于对图片进行统一的处理。判断文字灰度值深浅的方法为用(9&w方 法把文字区域图片二值化,然后找出白色和黑色的4连通分量,去除外 接矩形宽高都极小的连通分量,最后统计出白色连通分量个数Com^,e 和黑色连通分量个数C師^ ,如果Com,^ > Co w ,则判断文字是浅 色的,反之是深色的。进一步,上述的,所述步骤(l)中对文字区域图片进行颜色分量选择的具体方法是如公式一所示,分别求得 文字区域图片在!T/r各个颜色分量上的对比度Cy 、 Q和CV, C。为它 们中的最大值,ae{r,t/,r},则选择在R/K颜色空间中的a分量上进行二值化。cy、 q,和c;的值由公式二求得,分别为边缘强度图^, & 和^的中央部分的边缘强度累加值,cv、 Q和c;代表了文字区域图片在7C/r各个颜色分量上的对比度;^、 ^和^,是文字区域图片分别在 7f/r各个颜色分量上的边缘强度图,w和/z分别为文字区域图片的宽和 高。公式一<formula>formula see original document page 7</formula>公式二<formula>formula see original document page 7</formula>当然,关于颜色分量的选择,还可以有其他的方法。譬如,2005 年发表在 International Conference on Document Analysis and Recognition上的文南犬"Segmentation and Recognit ion of Characters in Scene Images Using Selective Binarization in Color Space and GAT Correlation"(作者是Minoru Yokobayashi 和Toru Wakahara ) 中公开了一种使得所选择的颜色分量上文字最为清晰的直方图方法,这 种方法首先求得图片在各个颜色分量上的直方图,然后比较各个直方图 中灰度值的分布情况,选择在直方图中灰度值分布最广的颜色分量上进 行二值化。进一步,上述的,所述步骤(2)中,文 字区域图片被二值化成前景和背景,前景用黑色表示,背景用白色表示, 前景中包含了文字的笔画和噪声。二值化的具体方法为对于图片中的 每一个像素x,求得一个局部阈值7;(x),如果这个像素的灰度值小于 7;(x)的话,这个像素被二值化成前景,否则是背景。对于每个像素:c, 我们用下面的方法计算局部阈值7;(x):如公式三所示,7;(x)的值从一 个以像素x为中心,大小为K力的窗口『,中统计得到,A0c)是K中像 素的平均灰度值, (x)是^中像素灰度值的标准方差,A是一个常数。窗口大小K力由公式四计算得到,公式四中,7;是一个常数,K力为像 素灰度值的标准方差大于?;的最小窗口的大小。公式三<formula>formula see original document page 8</formula>进一步,上述的,所述步骤(3)中处理 的对象是步骤(2)中得到的二值图片。二值图片中的黑色像素表示前 景,白色像素表示背景,黑色像素组成的连通分量包括了文字的笔画和 噪声。在本步骤中对二值图片进行处理,采用连通分量分析方法,灰度 一致性分析方法和基于颜色的聚类方法中的 一种或多种,去除二值图片 中被认定为噪声的连通分量。进一步,上述的,所述步骤(3)中用连 通分量分析来去除噪声的方法本文档来自技高网
...

【技术保护点】
一种图片文字分割的方法,用于把图片文字检测的结果由文字区域图片转换成可以被OCR软件识别的二值图片,其特征在于,包括以下步骤:(1)对文字区域图片进行颜色分量选择,在所选择的颜色分量上,文字最为清晰;(2)在步骤(1)选取的颜色分量上,对文字区域图片进行二值化,得到二值图片;(3)对步骤(2)得到的二值图片进行去噪。

【技术特征摘要】

【专利技术属性】
技术研发人员:易剑彭宇新肖建国
申请(专利权)人:北京大学
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利