一种文档图像中手写内容的擦除优化方法和装置制造方法及图纸

技术编号:36251273 阅读:83 留言:0更新日期:2023-01-07 09:44
本发明专利技术公开了一种文档图像中手写内容的擦除优化方法,包括如下步骤。步骤S1:采用一种用于图像分割的第一神经网络检测待处理图像,从中提取出待擦除的手写内容。步骤S2:采用一种用于图像修复的第三神经网络将待处理图像中的待擦除的手写内容运用背景色填充,填充后的待处理图像恢复到未书写的状态,称为复原后图像。步骤S3:对复原后图像采用一种用于图像锐化的第四神经网络进行图像优化处理,包括:去除擦除手写内容后残留的痕迹、去除纸张背面或下方透过来的字迹、去除图像噪声、去除阴影、去除与文档无关的物体。本发明专利技术处理速度快;擦除更自然;在擦除手写内容时能够保留印刷内容完整。完整。完整。

【技术实现步骤摘要】
一种文档图像中手写内容的擦除优化方法和装置


[0001]本专利技术涉及一种文档图像中的手写内容的擦除及图像优化方法。

技术介绍

[0002]在教育场景中,需要整理书写或标注过的作业、试卷,其中对做过的作业、试卷作复原处理后重做是一种常见需求。在办公场景中,也有将填写过的文档、表格复原后重用的需求。其中的复原就是将手写内容擦除。
[0003]申请公布号为CN114332150A、申请公布日为2022年4月12日的中国专利技术专利《手写笔迹擦除方法、装置、设备及可读存储介质》公开了一种文档图像中的手写笔迹擦除方法。该方法对图片先检测再分割,主要缺点是速度慢,并且擦除准确性受检测精度和分割精度双重影响。该方法没有指明手写体、印刷体重叠区域如何如理,如果判断为手写,擦除后印刷体的字迹就会断笔。
[0004]申请公布号为CN114708601A、申请公布日为2022年7月5日的中国专利技术专利《一种基于深度学习的手写字擦除方法》公开了一种文档图像中的手写字擦除方法。该方法没有指明手写字、印刷内容重叠区域如何如理,如果判断为手写,擦除后印刷内容的字迹就会断笔。该方法在制作训练样本时包括填补手写字区域像素,使其与背景融合,这会造成擦除手写字后被擦除字迹的边缘存在不自然的残留痕迹。

技术实现思路

[0005]本专利技术所要解决的技术问题是提出一种对文档图像中的手写内容的擦除和图像优化方法。
[0006]为解决上述技术问题,本专利技术公开了一种文档图像中手写内容的擦除优化方法,包括如下步骤。步骤S1:采用一种用于图像分割的第一神经网络检测待处理图像,从中提取出待擦除的手写内容;所述第一神经网络用来将待处理图像中的所有像素分为三类:背景像素、印刷像素、手写像素;既被印刷内容所覆盖、也被手写内容所覆盖的像素作为印刷像素;待处理图像中的所有手写像素的集合就是待擦除的手写内容。步骤S2:采用一种用于图像修复的第三神经网络将待处理图像中的待擦除的手写内容运用背景色填充,填充后的待处理图像恢复到未书写的状态,称为复原后图像。步骤S3:对复原后图像采用一种用于图像锐化的第四神经网络进行图像优化处理,包括:去除擦除手写内容后残留的痕迹、去除纸张背面或下方透过来的字迹、去除图像噪声、去除阴影、去除与文档无关的物体。
[0007]可选地,所述步骤S1替换为步骤S1a。步骤S1a:采用一种用于图像分割的第二神经网络检测待处理图像,从中提取出待擦除的手写内容;所述第二神经网络用来将待处理图像中的所有像素分为四类:背景像素、印刷像素、手写像素、印刷手写重叠像素;待处理图像中的所有手写像素的集合就是待擦除的手写内容。
[0008]优选地,所述第一神经网络、第二神经网络是U2‑
Net、MPRNet、pix2pix的任意一种,所述第三神经网络是LaMa、DeepFillv2、HiFill的任意一种,所述第四神经网络是U

Net、U2‑
Net、U
‑2‑
NETp、MPRNet、pix2pix的任意一种。
[0009]进一步地,所述第一神经网络、第二神经网络在训练时结合边界检测约束手段,即将神经网络的预测结果和标注送入sobel滤波器,使神经网络的预测结果得到的手写内容的纹理边缘与标注的手写内容的纹理边缘趋于一致。
[0010]进一步地,所述第四神经网络在训练时,每一对训练数据是一张原始图片和一张处理后图片;所述原始图片包括如下一种或多种缺陷:具有图像处理后残留的痕迹、具有纸张背面或下方的透字、具有图像噪声、具有阴影、具有与文档图像无关的物体;所述处理后图片是对原始图片经过三个步骤处理得到的,这三个步骤分别是:(a)将原始图片经过一个或多个用于图像锐化、去透字、去噪声、去阴影的图像处理滤镜;(b)由人工处理去除剩余缺陷;如在步骤(a)中对文档图像中的内容有损伤也由人工处理恢复;(c)转换为灰度图片。
[0011]可选地,所述步骤S2替换为步骤S2a。步骤S2a:采用一种图像修复技术对待处理图像中的待擦除的手写内容运用背景色填充,填充后的待处理图像恢复到未书写的状态,称为复原后图像。
[0012]可选地,所述待处理图像是输入图像、或者是输入图像的文档区域称为文档图像、或者是进行方向校正后的文档图像。
[0013]可选地,在步骤S3之后还包括步骤S4。步骤S4:对优化后的文档图像基于文字行和/或表格线进行弯曲矫正。
[0014]进一步地,所述步骤S4中,先采用一种用于图像分割的第六神经网络在优化后的文档图像中提取出文字行和/或表格线,然后基于所提取的文字行和/或表格线的原始状态和展平为直线后的状态在整幅优化后的文档图像上计算映射矩阵,再对整幅优化后的文档图像进行弯曲拉平。
[0015]可选地,在步骤S4之后还包括步骤S5。步骤S5:将矫正后的文档图像通过光学字符识别和版式恢复手段转换为可编辑的文档。
[0016]本专利技术还公开了一种文档图像中手写内容的擦除优化装置,包括擦除内容检测单元一、擦除单元一、图像优化单元。所述擦除内容检测单元用于采用一种用于图像分割的第一神经网络检测待处理图像,从中提取出待擦除的手写内容;所述第一神经网络用来将待处理图像中的所有像素分为三类:背景像素、印刷像素、手写像素;既被印刷内容所覆盖、也被手写内容所覆盖的像素作为印刷像素;待处理图像中的所有手写像素的集合就是待擦除的手写内容。所述擦除单元一用于采用一种用于图像修复的第三神经网络将待处理图像中的待擦除的手写内容运用背景色填充,填充后的待处理图像恢复到未书写的状态,称为复原后图像。所述图像优化单元用于对复原后图像采用一种用于图像锐化的第四神经网络进行图像优化处理,包括:去除擦除手写内容后残留的痕迹、去除纸张背面或下方透过来的字迹、去除图像噪声、去除阴影、去除与文档无关的物体。
[0017]可选地,所述擦除内容检测单元一替换为擦除内容检测单元二;所述擦除内容检测单元二用于采用一种用于图像分割的第二神经网络检测待处理图像,从中提取出待擦除的手写内容;所述第二神经网络用来将待处理图像中的所有像素分为四类:背景像素、印刷像素、手写像素、印刷手写重叠像素;待处理图像中的所有手写像素的集合就是待擦除的手写内容。
[0018]可选地,所述擦除单元一替换为擦除单元二;所述擦除单元二用于采用一种图像
修复技术对待处理图像中的待擦除的手写内容运用背景色填充,填充后的待处理图像恢复到未书写的状态,称为复原后图像。
[0019]本专利技术取得的技术效果是自动去手写、文档锐化提高清晰度;处理速度快;擦除更自然;在擦除手写内容时能够保留印刷内容完整。
附图说明
[0020]图1是本专利技术提出的文档图像中手写内容的擦除优化方法的流程示意图。
[0021]图2是本专利技术提出的文档图像中手写内容的擦除优化装置的结构示意图。
[0022]图中附图标记说明:1为擦除内容检测单元一、2为擦除单元一、3为图像优化单元。
具体实施方式
[0023]本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文档图像中手写内容的擦除优化方法,其特征是,包括如下步骤;步骤S1:采用一种用于图像分割的第一神经网络检测待处理图像,从中提取出待擦除的手写内容;所述第一神经网络用来将待处理图像中的所有像素分为三类:背景像素、印刷像素、手写像素;既被印刷内容所覆盖、也被手写内容所覆盖的像素作为印刷像素;待处理图像中的所有手写像素的集合就是待擦除的手写内容;步骤S2:采用一种用于图像修复的第三神经网络将待处理图像中的待擦除的手写内容运用背景色填充,填充后的待处理图像恢复到未书写的状态,称为复原后图像;步骤S3:对复原后图像采用一种用于图像锐化的第四神经网络进行图像优化处理,包括:去除擦除手写内容后残留的痕迹、去除纸张背面或下方透过来的字迹、去除图像噪声、去除阴影、去除与文档无关的物体。2.根据权利要求1所述的文档图像中手写内容的擦除优化方法,其特征是,所述步骤S1替换为步骤S1a;步骤S1a:采用一种用于图像分割的第二神经网络检测待处理图像,从中提取出待擦除的手写内容;所述第二神经网络用来将待处理图像中的所有像素分为四类:背景像素、印刷像素、手写像素、印刷手写重叠像素;待处理图像中的所有手写像素的集合就是待擦除的手写内容。3.根据权利要求1或2所述的文档图像中手写内容的擦除优化方法,其特征是,所述第一神经网络、第二神经网络是U2‑
Net、MPRNet、pix2pix的任意一种,所述第三神经网络是LaMa、DeepFillv2、HiFill的任意一种,所述第四神经网络是U

Net、U2‑
Net、U
‑2‑
NETp、MPRNet、pix2pix的任意一种。4.根据权利要求1或2所述的文档图像中手写内容的擦除优化方法,其特征是,所述第一神经网络、第二神经网络在训练时结合边界检测约束手段,即将神经网络的预测结果和标注送入sobel滤波器,使神经网络的预测结果得到的手写内容的纹理边缘与标注的手写内容的纹理边缘趋于一致。5.根据权利要求1或2所述的文档图像中手写内容的擦除优化方法,其特征是,所述第四神经网络在训练时,每一对训练数据是一张原始图片和一张处理后图片;所述原始图片包括如下一种或多种缺陷:具有图像处理后残留的痕迹、具有纸张背面或下方的透字、具有图像噪声、具有阴影、具有与文档图像无关的物体;所述处理后图片是对原始图片经过三个步骤处理得到的,这三个步骤分别是:(a)将原始图片经过一个或多个用于图像锐化、去透字、去噪声、去阴影的图像处理滤镜;(b)由人工处理去除剩余缺陷;如在步骤(a)中对文档图像中的内容有损伤也由人工处理恢复;(c)转换为灰度图片。6.根据权利要求1或2所述的文档图像中手写内容的擦除优化方法,其特征是,所述步骤S2替换为步骤S2a;步...

【专利技术属性】
技术研发人员:郭丰俊陆大公余鹏程刘鹏伟龙腾丁凯曹超阳许昌华黄宇浩
申请(专利权)人:上海临冠数据科技有限公司上海生腾数据科技有限公司上海盈五蓄数据科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1