文档图像处理方法、文档图像处理装置及存储介质制造方法及图纸

技术编号：22295958 阅读：39 留言：0更新日期：2019-10-15 05:02

本发明专利技术提供一种文档图像处理方法、文档图像处理装置及存储介质。所述文档图像中包括与线接触的文本行，所述文档图像处理方法包括：将待处理文本行划分为多个子区域，其中，每个划分出的子区域中包含文本行中的部分字符和与字符接触的线；根据子区域中包含的字符和与字符接触的线的方向来确定该子区域的文本方向；利用确定出的子区域的文本方向来确定待处理文本行中与文本行接触的线。

Document Image Processing Method, Document Image Processing Device and Storage Media

全部详细技术资料下载

【技术实现步骤摘要】
文档图像处理方法、文档图像处理装置及存储介质
本专利技术涉及一种文档图像处理技术，尤其涉及一种将文档图像中的文本行和与之相接触的线分离的技术。
技术介绍
针对电子文档的处理获得了日益广泛的关注并在多个领域广泛应用，在电子文档处理技术中，诸如OCR(光学字符识别)等的文档图像识别技术在不同类型的设备中得到了大量的应用。例如，在包括扫描仪的MFP(多功能外围设备)中应用文档图像识别技术，或是在照相机、智能手机等设备中应用文档图像识别技术。通常，将印刷有文字的书本、纸张等通过扫描仪的扫描或照相机的拍摄后生成的电子文档称为文档图像(DocumentImage)，在文档图像中，可能存在文本行与线相接触(像素点的重叠、叠加)的情况。图1(a)示出了文档图像中的文本行和下划线相接触的示意图。除了图1(a)所示的下划线以外，还可能存在文本行与表格线、删除线等其他线相接触的情况。为了将文档图像中的文本行和与之相接触的线分离开，提出了一种从文档图像中去除与文本行相接触的线的技术。首先，对图1(a)所示的文档图像进行诸如倾斜校正、去噪等预处理，得到图1(b)所示的预处理后的文档图像。接着，利用霍夫变换等方式检测出图1(b)中的水平线，即要被去除的下划线。最后，基于检测出的水平线的宽度(图1(b)中所示的水平线在Y轴方向上的像素点的数量)，去除检测出的水平线，同时利用形态学的闭合操作，将去除水平线时可能断开的文本行中的各字符的笔画连接起来，得到图1(c)中所示的去除了下划线但保持了字符笔画的结果。图1(a)所示的文档图像中的内容虽然存在诸如倾斜等线性变形，但通过倾斜校正等预处理手...

【技术保护点】
1.一种文档图像处理方法，所述文档图像中包括与线接触的文本行，所述文档图像处理方法包括：将待处理文本行划分为多个子区域，其中，每个划分出的子区域中包含文本行中的部分字符和与字符接触的线；根据子区域中包含的字符和与字符接触的线的方向来确定该子区域的文本方向；利用确定出的子区域的文本方向来确定待处理文本行中与文本行接触的线。

【技术特征摘要】
1.一种文档图像处理方法，所述文档图像中包括与线接触的文本行，所述文档图像处理方法包括：将待处理文本行划分为多个子区域，其中，每个划分出的子区域中包含文本行中的部分字符和与字符接触的线；根据子区域中包含的字符和与字符接触的线的方向来确定该子区域的文本方向；利用确定出的子区域的文本方向来确定待处理文本行中与文本行接触的线。2.根据权利要求1所述的文档图像处理方法，其中，该方法还包括：对所述文本图像执行预处理，并从中确定出待处理文本行。3.根据权利要求1所述的文档图像处理方法，其中，该方法还包括：去除确定出的线。4.根据权利要求1至3任一所述的文档图像处理方法，其中，所述文档图像为非线性变形的图像、线性变形的图像或没有变形的图像。5.根据权利要求1所述的文档图像处理方法，其中，将待处理文本行划分为多个子区域具体包括：确定待处理文本行中同一像素列上的顶部像素和底部像素之间的距离；过滤顶部像素和底部像素之间的距离满足设定条件的像素列；基于过滤后的像素列中的顶部像素和底部像素之间的距离来确定子区域的尺寸参数；从待处理文本行中的像素列中选择多个像素列的中心点作为子区域的中心；基于确定的子区域的尺寸参数和子区域的中心划分出多个子区域。6.根据权利要求1所述的文档图像处理方法，其中，将待处理文本行划分为多个子区域具体包括：确定待处理文本行中各像素列中前景像素的数量；确定像素列组，该像素列组中的各像素列是相邻像素列，且每个像素列中的前景像素的数量小于第一数量；确定相邻的像素列组之间存在前景像素的数量大于第二数量的像素列的多个像素列组，从确定出的每个像素列组中确定一个像素列作为子区域的左右边界；将左右边界之间的有前景像素的第一像素行和最后一像素行作为上下边界；基于确定出的左右边界和上下边界划分出子区域。7.根据权利要求1所述的文档图像...

【专利技术属性】
技术研发人员：李娇凤，罗兆海，
申请(专利权)人：佳能株式会社，
类型：发明
国别省市：日本,JP

全部详细技术资料下载我是这个专利的主人