【技术实现步骤摘要】
一种用于去除文档图像颜色及手写笔迹的方法及装置
[0001]本专利技术属于纸质文档图像处理
,尤其涉及一种用于去除文档图像颜色及手写笔迹的方法及装置。
技术介绍
[0002]文档图像自动去色的目标是将彩色文档图像中的前景文本从背景中分离出来,期望尽可能的保留原文档图像中的文字信息。但是受到图像采集的方法、设备以及采集时的周边环境的影响,通常通过相机获取的文档图像上存在大量的无关信息,例如阴影、褶皱等,它们会对去色效果产生影响,当再次打印文档图像时这些无关信息会被保留在新打印的文档上,浪费墨水的同时也影响阅读。同时,如果原始的文档文件上存在手写内容,在图像处理的过程中这些手写内容也会被保留在输出图像中。当不需要这些内容时,想要去除它们是非常困难的。现有的方法中,通常通过颜色来去除相关手写内容,例如红色笔迹和蓝色笔迹,对于这类基于颜色区分的方法,无法在保留打印的黑色文字信息的同时去除黑色手写内容。
[0003]目前,用户对文本、书籍、试卷等纸质文档进行拍照,扫描成为照片或者其他电子档时,通常会包含非实质内容的背景,例如书桌、文具等其他物体,有效的移除环境内容一方面可以保护用户信息安全,另一方面也可以有效降低内存,节省空间;同时,由于拍摄的环境、被拍摄页面的弯曲褶皱,拍摄的照片上通常会存在阴影,降低文档图像的质量,尤其对于需要再次打印的文档,会严重影响打印效果;以及如果原始的文档上已经存在手写笔迹,这些内容也会保留在输出的图像或者电子文件中,当这些笔迹为个人敏感信息,或者用户不需要保留这些笔迹时,想要在保留有 ...
【技术保护点】
【技术特征摘要】
1.一种用于去除文档图像颜色及手写笔迹的方法,其特征在于,包括:从本地存储器或图像采集设备获取待处理的文档图像,并输入到打印文字区域与手写笔迹区域;使用图像分割模型对输入的文档图像进行分割,获得像素级的打印文字区域与手写笔迹区域;基于获得的区域分割结果,对文档图像进行去色和去手写笔迹处理。2.如权利要求1所述的用于去除文档图像颜色及手写笔迹的方法,其特征在于,所述对图像进行去色和去手写笔迹处理方法具体包括:对原文档图像进行基础去色处理,转换为灰度文档图像;根据手写笔迹区域,将灰度文档图像中属于手写笔迹区域的像素值置为背景色,得到已经去除手写笔迹的灰度文档图像。3.如权利要求2所述的用于去除文档图像颜色及手写笔迹的方法,其特征在于,在得到已经去除手写笔迹的灰度文档图像后,对灰度文档图像中属于打印文字区域的像素进行膨胀处理,得到膨胀后的打印文字区域。4.如权利要求3所述的用于去除文档图像颜色及手写笔迹的方法,其特征在于,结合膨胀后的打印文字区域对已经去除手写笔迹的灰度文档图像进行进一步去色增强处理;首先对背景区域或非文字区域直接置为白色;然后对前景区域或膨胀的文字区域进行局部的对比度增强以及清晰化处理。5.如权利要求1所述的用于去除文档图像颜色及手写笔迹的方法,其特征在于,具体包括:(1)获取待处理的文档图像,包括从本地存储器加载文档图像,或者从图像采集设备直接获取文档图像,输入图像包含打印文档区域和背景区域,打印文档区域包括打印文字区域与手写笔迹区域;通过图像裁剪去除直接获取的文档图像中包含的非文档内容;(2)使用图像分割模型对输入图像进行分割,获得像素级精度的打印文字区域、手写笔迹区域;所述图像分割模型是深度卷积网络DCNN中的语义分割模型,应用语义分割模型的深度卷积网络结构包括完全卷积网络FCN、U形网络、金字塔场景解析网络PspNet,分割网络SegNet,深层标签模型DeepLab;通过使用已经标注有打印文字区域、手写文字区域和背景区域的图像样本集训练待训练的图像分割模型,得到图像分割模型;在训练集里增加阴影、褶皱的样本;在训练集里增加不同颜色的手写笔迹数据,用以增强对不同颜色的笔迹的识别能力;(3)基于(2)的区域分割结果,对图像进行去色和去手写笔迹处理。6.如权利要求5所述的用于去除文档图像颜色及手写笔迹的方法,其特征在于,所述基于(2)的区域分割结果,对图像进行去色和去手写笔迹处理具体包括:1)灰度转换公式将RGB图像转换为Gray图像,转换公式如下:Gray=R*0.299+G*0.587+B*0.114;或使用以下公式:Gray=R/3+G/3+B/3;Gray=(R
2.2
*0.2973+G
2.2
*0.6274+B
2.2
*0.0753)
1/2.2
;
2)根据获得手写笔迹区域,将灰度文档图像中属于手写笔迹区域的像素值置为背景色,得到已经去除手写笔迹的灰度文档图像;或使用opencv中的inpaint函数,结合获得的手写笔迹区域,对手写笔迹区域进行修复以达到去除手写笔迹的作用;具体包括:p(i,j)为图像在(i,j)处的像素点的灰度值,s(i,j)为图像在(i,j)处的状态值,当s(i,j)=0时,表示点属于背景区域,当s(i,j)=1时,表示点属于手写笔迹区域,当s(i,j)=2时,表示点属于打印文字区域;按顺序遍历整张图像的像素点,当前位置状态值s(i,j)=1时,检测周围点的状态值,计算周围点属于背景区域的灰度值的平均值,记为p
avg
,将当前位置的灰度值p(i,j)替换为得到的平均值p
avg
,并更新当前位置状态值s(i,j)=...
【专利技术属性】
技术研发人员:马青青,
申请(专利权)人:珠海移科智能科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。