文档的自适应二值化方法和设备技术

技术编号：2928530 阅读：164 留言：0更新日期：2012-04-11 18:40

本申请涉及一种对文档进行自适应二值化的方法、设备和存储介质。本发明专利技术的对灰度级文档图像进行自适应二值化的方法包括：划分步骤，将灰度级文档划分为块；第一确定步骤，根据块的特征确定所划分的块当中的背景块和文本块；第二确定步骤，确定第一确定步骤所确定的每一个文本块所包括的像素中的背景像素；第一计算步骤，计算表示每一个块的阈值的块阈值面，其中，基于第一确定步骤所确定的背景块中所包括的所有像素计算该背景块的阈值，基于第一确定步骤所确定的文本块中所包括的背景像素计算该文本块的阈值，背景像素是在第二确定步骤中所确定的；以及二值化步骤，使用第一计算步骤所计算的块阈值面来将灰度级文档图像二值化。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术总体上涉及文档图像处理，尤其涉及光学字符识别(OCR)。更具体地，涉及文档的自适应二值化方法、设备和存储介质。
技术介绍
文档图像的二值化是文档图像分析系统比如光学字符识别系统中的第一步。阈值分割操作的输出结果是二值图像，其中的一个状态表示前景对象也就是印刷文本，其互补状态对应于背景。二值化方法可以分为两类全局和局部阈值分割技术，见.D.Trier and A.K.Jain.Goal-directed evaluation of binarizaton methods，IEEETransactions on Pattern Analysis and MachineIntelligence，17(12)1191-1201，1995，Yibing Yang and Hong Yan.Anadaptive logical method for binarization of degraded document images，Pattern Recognition，33(5)787-807，2000，以及Xiangyun Ye，Mohamed Cheriet.and Ching Y.Suen.Stroke-modelbased characterextraction from gray-level document images，IEEE Transactions onImage Processing，10(8)1152-1161，2001。在许多情况下，属于背景的像素的灰度级与属于对象的像素的灰度级有相当大的不同。这样阈值分割就是一种简单而有效的...

【技术保护点】
一种对灰度级文档图像进行自适应二值化的方法，该方法包括：划分步骤，将灰度级文档划分为块；第一确定步骤，根据所划分的块的特征确定所述块当中的背景块和文本块；第二确定步骤，确定所述第一确定步骤所确定的每一个文本块所包括的像素中的背景像素；第一计算步骤，计算表示每一个块的阈值的块阈值面，其中，基于所述第一确定步骤所确定的背景块中所包括的所有像素计算该背景块的阈值，基于所述第一确定步骤所确定的文本块中所包括的背景像素计算该文本块的阈值，所述背景像素是在所述第二确定步骤中所确定的；以及二值化步骤，使用所述第一计算步骤所计算的块阈值面来将所述灰度级文档图像二值化。

【技术特征摘要】

【专利技术属性】
技术研发人员：曾旭，李献，肖其林，
申请(专利权)人：佳能株式会社，
类型：发明
国别省市：JP[日本]

全部详细技术资料下载我是这个专利的主人