一种基于GAN的任务分解式图像文档去噪方法技术

技术编号:38970453 阅读:13 留言:0更新日期:2023-09-28 09:34
本发明专利技术公开了一种基于GAN的任务分解式图像文档去噪方法,采用基于条件GAN的DTNS算法,将图像格式文档的去噪过程分为发现干扰区域和消除干扰区域两部分;其中,发现干扰区域为在图像中找到以水印和印章为代表的所有噪声区域,消除干扰区域为去除所述噪声区域,将图像中的信息还原到加噪前的状态。本发明专利技术提出一种基于条件GAN的DTNS算法,通过将去噪任务分解为水印发现和水印去除两个部分,大大降低了直接通过GAN去除水印的任务难度,降低网络复杂度,并且通过在重合区域使用高维结构的特征空间中高斯采样,可以减缓重合区域的文字轮廓丢失现象,从而较好地去除文档图像中的噪声。从而较好地去除文档图像中的噪声。从而较好地去除文档图像中的噪声。

【技术实现步骤摘要】
一种基于GAN的任务分解式图像文档去噪方法


[0001]本专利技术属于深度学习领域,具体涉及一种基于GAN的任务分解式图像文档去噪方法。

技术介绍

[0002]企业中存在大量的图像文档,从图像中提取有效文字信息的需求衍生出了OCR(Optical Character Recognition)相关技术。现有的OCR技术一般分为文字检测和文字识别两部分,如图1所示。对于清晰、无干扰的一般文档,现有的OCR相关技术能正常检测和识别出文字。
[0003]但由于加密、验证等因素,会存在大量被水印或者印章干扰的文档,如图2所示,使现有的OCR方法无法准确完整地进行文本检测和识别,严重影响图像文档的信息提取。
[0004]目前虽然有通过传统图像处理和深度学习图像处理的方法来消除干扰源,但是还存在以下缺点:1、由于图像文档中包含大量文字信息,并且在标注后的图像不能丢失已有的文字信息,需要逐个像素精细地标注出目标区域,并且在目标区域较小时标注困难,导致去噪文档的像素到像素(pixel2pixel)的标注成本太高,能使用的数据大部分都是合成数据,因为可能的数据样式太多,无法完全枚举,导致无法覆盖到足够的图像样本空间,会有很明显的数据偏移性。
[0005]2、传统的基于阈值的图像处理算法需对不同数据场景定制,通过对比度、灰度等进行过滤处理,经常会受到光照、噪声、水印图、印章图等的影响,导致对于不同的图像需要适配不同的参数,甚至有些需要修改算法的细节,会严重导致算法的适用范围大大降低,无法在图像文档处理的工业化场景中投入使用。
[0006]3、传统的基于小波变换的水印去处算法,经常无法正常分解正文文字信息和水印中的文字信息,会混淆文字和水印信息,鲁棒性不足。
[0007]4、目前采用的基于GAN(Generative Adversarial Network,生成对抗网络)的深度学习图像处理方法,直接将噪声干扰文档生成需要处理的文档需要复原的信息量过大,深度学习中图像的感受野有限,导致网络的设计难度很大,并且由于GAN不稳定,常常在训练过程中出现无法正常收敛的问题。
[0008]5、现有的方法在处理文档和水印重合区域时,由于无法正常分解文字信号和噪声信号,经常在重合部分的邻近区域出现严重的文字轮廓丢失的现象,影响到后续的文字识别过程。

技术实现思路

[0009]本专利技术的目的在于克服上述现有技术中存在的不足,提出一种基于条件GAN的DTNS(Document Text Noise Splitter,文档文本噪声分离器)算法,通过将去噪任务分解为水印发现和水印去除两个部分,大大降低了直接通过GAN去除水印的任务难度,降低网络
复杂度,并且通过在重合区域使用高维结构的特征空间中高斯采样,可以减缓重合区域的文字轮廓丢失现象,从而较好地去除文档图像中的噪声。
[0010]为实现上述专利技术目的,本专利技术提供一种基于GAN的任务分解式图像文档去噪方法,采用基于条件GAN的DTNS算法,将图像格式文档的去噪过程分为发现干扰区域和消除干扰区域两部分;其中,发现干扰区域为在图像中找到以水印和印章为代表的所有噪声区域,消除干扰区域为去除所述噪声区域,将图像中的信息还原到加噪前的状态。
[0011]进一步地,发现干扰区域采用映射模块实现,所述映射模块包括第一判别器和第一生成器,所述第一判别器采用多层判别器,所述第一生成器使用skip

connection网络结构。
[0012]进一步地,所述第一判别器中采用spectral

norm层。
[0013]进一步地,所述映射模块中卷积核的大小为4。
[0014]进一步地,消除干扰区域的过程为:将加噪的原始图像与发现干扰区域所形成的噪声图像进行合并,以将加噪的原始图像中被所述噪声图像遮挡的部分恢复成加噪前状态。
[0015]进一步地,通过遮挡图像和加噪的原始图像进行图像恢复时采用部分卷积的方式。
[0016]进一步地,将特征提取层中的高层信息作为结构特征,低层信息作为纹理特征,通过对高层信息在遮挡部分的高斯采样来恢复成加噪前状态。
[0017]进一步地,消除干扰区域采用编辑模块实现,所述编辑模块包括第二判别器和第二生成器;所述第二判别器中采用spectral

norm层;所述第二生成器使用skip

connection网络结构,并且采用resnet

block。
[0018]进一步地,基于条件GAN的DTNS算法的训练过程为:首先,分开训练映射模块和编辑模块,映射模块训练10个epoch,编辑模块训练20个epoch,这个过程两者都采用Adam优化器,学习率是1e

4;其次,联合训练映射模块和编辑模块。
[0019]与现有技术相比,本专利技术的有益效果为:1、通过将去噪任务分解为发现干扰区域和消除干扰区域两部分,大大降低了任务难度;2、通过调整生成器部分的卷积核等方式,大大减小了网络的大小,能够在使用一张P100显卡16G显存资源时正常处理较大尺寸的图像;3、可以大量使用合成数据,避免了操作困难的数据收集和标注过程。
附图说明
[0020]图1为现有技术中OCR处理流程图;图2为带噪文档样例;图3为本专利技术一个实施例的流程图;图4为本专利技术一个实施例中映射模块的原理框图;图5为本专利技术一个实施例中映射模块中第一判别器的原理框图;图6为本专利技术一个实施例中编辑模块的原理框图;图7a为本专利技术一个实施例中训练用加噪(加盖印章)图像;
图7b为将图7a中噪声去除后的训练效果图;图7c为图7a未加噪前的原始图像,用于与图7b进行对比;图8a为本专利技术一个实施例中实际测试用加噪(加水印)图像;图8b为从图8a中发现的噪声图像;图8c为将图8a中噪声(水印)去除后的实测效果图;图9a为本专利技术一个实施例中实际测试用加噪(加盖印章)图像;图9b为从图9a中发现的噪声图像;图9c为将图9a中噪声(印章)去除后的实测效果图。
实施方式
[0021]下面结合附图和具体实施例,对本专利技术的技术方案做进一步说明。
[0022]如图3所示,本专利技术基于GAN的任务分解式图像文档去噪方法的一个实施例,采用基于条件GAN的DTNS算法,将图像格式文档的去噪过程分为发现干扰区域和消除干扰区域两部分;其中,发现干扰区域为在图像中找到以水印和印章为代表的所有噪声区域,消除干扰区域为去除所述噪声区域,将图像中的信息还原到加噪前的状态。
[0023]在一个实施例中,如图4和图5所示,发现干扰区域采用映射模块实现,所述映射模块包括第一判别器和第一生成器,所述第一判别器采用多层判别器,所述第一生成器使用skip

connection网络结构。
[0024]在一个实施例中,所述第一判别器中采用spectral

norm层。
[0025]在一个实施例中,所本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于GAN的任务分解式图像文档去噪方法,其特征在于,采用基于条件GAN的DTNS算法,将图像格式文档的去噪过程分为发现干扰区域和消除干扰区域两部分;其中,发现干扰区域为在图像中找到以水印和印章为代表的所有噪声区域,发现干扰区域采用映射模块实现,所述映射模块包括第一判别器和第一生成器,所述第一判别器采用多层判别器,所述第一生成器使用skip

connection网络结构,消除干扰区域为去除所述噪声区域,将图像中的信息还原到加噪前的状态。2.根据权利要求1所述的基于GAN的任务分解式图像文档去噪方法,其特征在于,所述第一判别器中采用spectral

norm层。3.根据权利要求1所述的基于GAN的任务分解式图像文档去噪方法,其特征在于,所述映射模块中卷积核的大小为4。4.根据权利要求1所述的基于GAN的任务分解式图像文档去噪方法,其特征在于,消除干扰区域的过程为:将加噪的原始图像与发现干扰区域所形成的噪声图像进行合并,以将加噪的原始图像中被所述噪声图像遮挡的部分恢复成加噪前状态。5.根据权利要求4所述的基于GAN的任务分解...

【专利技术属性】
技术研发人员:李巍豪周炳诚高翔魏舒许诺潘新星杨彬彬黄登陈运文纪达麒
申请(专利权)人:达而观信息科技上海有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1