一种用于去除文档图像颜色及手写笔迹的方法及装置制造方法及图纸

技术编号:32907877 阅读:60 留言:0更新日期:2022-04-07 11:58
本发明专利技术属于纸质文档图像处理技术领域,公开了一种用于去除文档图像颜色及手写笔迹的方法及装置,获取待处理的文档图像,待处理的文档图像包括从本地存储器加载文档图像,或者从图像采集设备直接获取文档图像,输入图像通常同时包含打印文字区域与手写笔迹区域;使用图像分割模型对输入图像进行分割,获得像素级的打印文字区域与手写笔迹区域;基于获取的区域分割结果,对图像进行去色和去手写笔迹处理。本发明专利技术的方法有效去除纸张褶皱、拍照阴影的影响,获得高质量的清晰的文档图像;同时智能去除图像上各种颜色的手写笔迹;当配合高质量打印机时,使用本发明专利技术的方法能够直接打印出干净清晰的文档内容。干净清晰的文档内容。干净清晰的文档内容。

【技术实现步骤摘要】
一种用于去除文档图像颜色及手写笔迹的方法及装置


[0001]本专利技术属于纸质文档图像处理
,尤其涉及一种用于去除文档图像颜色及手写笔迹的方法及装置。

技术介绍

[0002]文档图像自动去色的目标是将彩色文档图像中的前景文本从背景中分离出来,期望尽可能的保留原文档图像中的文字信息。但是受到图像采集的方法、设备以及采集时的周边环境的影响,通常通过相机获取的文档图像上存在大量的无关信息,例如阴影、褶皱等,它们会对去色效果产生影响,当再次打印文档图像时这些无关信息会被保留在新打印的文档上,浪费墨水的同时也影响阅读。同时,如果原始的文档文件上存在手写内容,在图像处理的过程中这些手写内容也会被保留在输出图像中。当不需要这些内容时,想要去除它们是非常困难的。现有的方法中,通常通过颜色来去除相关手写内容,例如红色笔迹和蓝色笔迹,对于这类基于颜色区分的方法,无法在保留打印的黑色文字信息的同时去除黑色手写内容。
[0003]目前,用户对文本、书籍、试卷等纸质文档进行拍照,扫描成为照片或者其他电子档时,通常会包含非实质内容的背景,例如书桌、文具等其他物体,有效的移除环境内容一方面可以保护用户信息安全,另一方面也可以有效降低内存,节省空间;同时,由于拍摄的环境、被拍摄页面的弯曲褶皱,拍摄的照片上通常会存在阴影,降低文档图像的质量,尤其对于需要再次打印的文档,会严重影响打印效果;以及如果原始的文档上已经存在手写笔迹,这些内容也会保留在输出的图像或者电子文件中,当这些笔迹为个人敏感信息,或者用户不需要保留这些笔迹时,想要在保留有效信息的同时去除手写笔迹是较为困难。
[0004]现有技术一CN1687969

基于文档图像内容分析与特征提取的文档图像压缩方法

公开:由文档图像预处理、文档图像分割、文字压缩和图像压缩步骤组成,其中文档图像预处理是对文档图像的灰度值进行统计并向图像边界投影,根据投影曲线和灰度直方图分析文档图像内容并自动检测和提取出基于文档图像内容的特征信息,包括文字、图像和文档附带的标记等内容的位置信息和象素灰度值信息;文档图像分割根据文档图像预处理步骤的特征信息结果将文档图像分割成文字部分和图像部分;最后,对文字部分和图像部分分别进行压缩,得到原始文档图像的压缩结果。
[0005]但其技术缺陷在于,投影的照片上通常会存在阴影,降低文档图像的质量,严重影响打印效果。
[0006]现有技术二CN101276363

文档图像的检索装置及文档图像的检索方法

公开:文档图像的检索装置,用于检索以文字和图表为主要内容的文档图像,其特征在于,该文档图像的检索装置具有:生成文档图像页的特征矢量的特征矢量生成部;文档图像识别部,其对采用上述特征矢量生成部而生成的识别对象的文档图像页的特征矢量、与储存在检索对象中的文档图像页的特征矢量进行比较,从检索对象中抽出与识别对象的文档图像页对应的文档图像页,上述特征矢量生成部具有:矩形图像抽出部,其将文档图像页中的文字部分连
结,而抽出矩形图像;区段分割部,其基于由上述矩形图像抽出部抽出的矩形图像的信息,分析页的几何构造,并将上述文档图像页分割成多个区段;特征区段选择部,其从由上述区段分割部分割的多个区段中,选择出表现该文档图像页的特征区段;特征计算部,其将由上述特征区段选择部选择的多个特征区段的信息,作为该文档图像页的特征来计算出,上述特征矢量生成部将上述特征计算部的计算结果包含在该文档图像页的特征矢量的要素中。但其技术缺陷在于,其文档图像不能避免有阴影。
[0007]现有技术三CN112639700A

手写笔迹处理方法、手写输入设备及计算机可读存储介质

公开
‑‑
手写笔迹处理方法包括如下步骤:获取每一笔划中各个数据点的笔迹属性信息;选择每一笔划中的某一数据点进行标记,并记为标记数据点;删除每一笔划中除所述标记数据点之外的其他数据点的笔迹属性信息中与所述标记数据点的笔迹属性信息相同的笔迹属性信息。但其技术缺陷在于,去除手写笔迹效果差。
[0008]通过上述分析,现有技术存在的问题及缺陷为:
[0009](1)目前,用户对文本、书籍、试卷等纸质文档进行拍照,扫描成为照片或者其他电子档时,拍摄的照片上通常会存在阴影,降低文档图像的质量,严重影响打印效果。
[0010](2)如果原始的文档上已经存在手写笔迹,内容也会保留在输出的图像或者电子文件中,当这些笔迹为个人敏感信息。
[0011](3)用户不需要保留这些笔迹时,想要在保留有效信息的同时去除手写笔迹是较为困难。

技术实现思路

[0012]针对现有技术存在的问题,本专利技术提供了一种用于去除文档图像颜色及手写笔迹的方法及装置。
[0013]本专利技术是这样实现的,一种用于去除文档图像颜色及手写笔迹的方法,所述用于去除文档图像颜色及手写笔迹的方法包括:
[0014](1)获取待处理的文档图像,包括从本地存储器加载文档图像,或者从图像采集设备直接获取文档图像,输入图像通常同时包含打印文字区域与手写笔迹区域;
[0015](2)使用图像分割模型对输入图像进行分割,获得像素级的打印文字区域与手写笔迹区域;
[0016](3)基于(2)的区域分割结果,对图像进行去色和去手写笔迹处理。
[0017]进一步,所述对图像进行去色和去手写笔迹处理方法具体包括:对原文档图像进行基础去色处理,转换为灰度文档图像;
[0018]根据手写笔迹区域,将灰度文档图像中属于手写笔迹区域的像素值置为背景色,得到已经去除手写笔迹的灰度文档图像。
[0019]进一步,在得到已经去除手写笔迹的灰度文档图像后,对灰度文档图像中属于打印文字区域的像素进行膨胀处理,得到膨胀后的打印文字区域。
[0020]进一步,结合膨胀后的打印文字区域对已经去除手写笔迹的灰度文档图像进行进一步去色增强处理,首先对背景区域或非文字区域直接置为白色,然后对前景区域或膨胀的文字区域进行局部的对比度增强以及清晰化处理,得到更适合阅读以及打印的文档图像。
[0021]进一步,所述对图像进行去色和去手写笔迹处理方法具体包括:
[0022](1)获取待处理的文档图像,包括从本地存储器加载文档图像,或者从图像采集设备直接获取文档图像,输入图像通常同时包含打印文档区域和背景区域,打印文档区域包括打印文字区域与手写笔迹区域;
[0023]直接获取的文档图像都可能包含非文档内容,通过图像裁剪去除非文档内容;
[0024](2)使用图像分割模型对输入图像进行分割,获得像素级精度的打印文字区域、手写笔迹区域与背景区域。使用的图像分割模型是深度卷积网络DCNN中的语义分割模型,为经过预先训练好的模型,对打印字符以及手写字迹具有良好的识别性能;应用于该语义分割模型的深度卷积网络结构包括完全卷积网络FCN、U形网络、金字塔场景解析网络PspNet,分割网络SegNe本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于去除文档图像颜色及手写笔迹的方法,其特征在于,包括:从本地存储器或图像采集设备获取待处理的文档图像,并输入到打印文字区域与手写笔迹区域;使用图像分割模型对输入的文档图像进行分割,获得像素级的打印文字区域与手写笔迹区域;基于获得的区域分割结果,对文档图像进行去色和去手写笔迹处理。2.如权利要求1所述的用于去除文档图像颜色及手写笔迹的方法,其特征在于,所述对图像进行去色和去手写笔迹处理方法具体包括:对原文档图像进行基础去色处理,转换为灰度文档图像;根据手写笔迹区域,将灰度文档图像中属于手写笔迹区域的像素值置为背景色,得到已经去除手写笔迹的灰度文档图像。3.如权利要求2所述的用于去除文档图像颜色及手写笔迹的方法,其特征在于,在得到已经去除手写笔迹的灰度文档图像后,对灰度文档图像中属于打印文字区域的像素进行膨胀处理,得到膨胀后的打印文字区域。4.如权利要求3所述的用于去除文档图像颜色及手写笔迹的方法,其特征在于,结合膨胀后的打印文字区域对已经去除手写笔迹的灰度文档图像进行进一步去色增强处理;首先对背景区域或非文字区域直接置为白色;然后对前景区域或膨胀的文字区域进行局部的对比度增强以及清晰化处理。5.如权利要求1所述的用于去除文档图像颜色及手写笔迹的方法,其特征在于,具体包括:(1)获取待处理的文档图像,包括从本地存储器加载文档图像,或者从图像采集设备直接获取文档图像,输入图像包含打印文档区域和背景区域,打印文档区域包括打印文字区域与手写笔迹区域;通过图像裁剪去除直接获取的文档图像中包含的非文档内容;(2)使用图像分割模型对输入图像进行分割,获得像素级精度的打印文字区域、手写笔迹区域;所述图像分割模型是深度卷积网络DCNN中的语义分割模型,应用语义分割模型的深度卷积网络结构包括完全卷积网络FCN、U形网络、金字塔场景解析网络PspNet,分割网络SegNet,深层标签模型DeepLab;通过使用已经标注有打印文字区域、手写文字区域和背景区域的图像样本集训练待训练的图像分割模型,得到图像分割模型;在训练集里增加阴影、褶皱的样本;在训练集里增加不同颜色的手写笔迹数据,用以增强对不同颜色的笔迹的识别能力;(3)基于(2)的区域分割结果,对图像进行去色和去手写笔迹处理。6.如权利要求5所述的用于去除文档图像颜色及手写笔迹的方法,其特征在于,所述基于(2)的区域分割结果,对图像进行去色和去手写笔迹处理具体包括:1)灰度转换公式将RGB图像转换为Gray图像,转换公式如下:Gray=R*0.299+G*0.587+B*0.114;或使用以下公式:Gray=R/3+G/3+B/3;Gray=(R
2.2
*0.2973+G
2.2
*0.6274+B
2.2
*0.0753)
1/2.2

2)根据获得手写笔迹区域,将灰度文档图像中属于手写笔迹区域的像素值置为背景色,得到已经去除手写笔迹的灰度文档图像;或使用opencv中的inpaint函数,结合获得的手写笔迹区域,对手写笔迹区域进行修复以达到去除手写笔迹的作用;具体包括:p(i,j)为图像在(i,j)处的像素点的灰度值,s(i,j)为图像在(i,j)处的状态值,当s(i,j)=0时,表示点属于背景区域,当s(i,j)=1时,表示点属于手写笔迹区域,当s(i,j)=2时,表示点属于打印文字区域;按顺序遍历整张图像的像素点,当前位置状态值s(i,j)=1时,检测周围点的状态值,计算周围点属于背景区域的灰度值的平均值,记为p
avg
,将当前位置的灰度值p(i,j)替换为得到的平均值p
avg
,并更新当前位置状态值s(i,j)=...

【专利技术属性】
技术研发人员:马青青
申请(专利权)人:珠海移科智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1