一种辅助档案数字化的图像去噪方法技术

技术编号:37239978 阅读:9 留言:0更新日期:2023-04-20 23:21
本发明专利技术公开了一种辅助档案数字化的图像去噪方法,涉及到图像处理技术领域,包括步骤制作数据集:收集干净档案数据,由扫描仪扫描获得;收集带噪音档案数据,由扫描仪扫描获得;利用干净档案数据和带噪音档案数据制作数据集,并将数据集分为训练集、验证集和测试集;步骤图像预处理:数据集中数据输入模型前对数据进行数据增强;步骤构建网络模型:循环生成对抗网络,由两对判别器和生成器组成,每个生成器对应一个判别器;本发明专利技术在不改变图像本身的质量的前提下,有效去除单一噪声和混合噪声,提高档案图像噪声去除的效率,且适用于各类需要去除噪声的文本图像,有利于优化档案数字化的过程,减少档案数字化过程中的人力和时间消耗。耗。耗。

【技术实现步骤摘要】
一种辅助档案数字化的图像去噪方法


[0001]本专利技术涉及图像处理
,特别涉及一种辅助档案数字化的图像去噪方法。

技术介绍

[0002]目前,几乎所有的档案数字化项目的实施过程中均包含图像去噪的操作,其中包括去黑边、噪点、装订孔、水渍等无效信息,但是现有的文本图像去噪方法的应用范围有限(去除椒盐、高斯噪声效果突出),每种方法仅对某种特定噪声的去除效果显著,对其它的噪声如装订孔、黑边或者这几种噪声的混合噪声的去噪能力较弱。这些方法在去噪过程中有可能会丢失图像的细节和边缘信息或者会使图像变得模糊,降低档案图像的清晰度,并且有一部分噪声仅能手动去除,需要消耗大量的人力和时间。综上所述,不难得出现有的档案图像去噪方法无法满足大量的档案需要进行数字化的需求,因此,本申请提供了一种辅助档案数字化的图像去噪方法来满足需求。

技术实现思路

[0003]本申请的目的在于提供一种辅助档案数字化的图像去噪方法,在不改变图像本身的质量的前提下,有效去除单一噪声和混合噪声,提高档案图像噪声去除的效率,且适用于各类需要去除噪声的文本图像,有利于优化档案数字化的过程,减少档案数字化过程中的人力和时间消耗。
[0004]为实现上述目的,本申请提供如下技术方案:一种辅助档案数字化的图像去噪方法,包括以下步骤:
[0005]S1.制作数据集:
[0006]收集干净档案数据,由扫描仪扫描获得;
[0007]收集带噪音档案数据,由扫描仪扫描获得;
[0008]利用干净档案数据和带噪音档案数据制作数据集,并将数据集分为训练集、验证集和测试集;
[0009]S2.图像预处理:数据集中数据输入模型前对数据进行数据增强;
[0010]S3.构建网络模型:
[0011]循环生成对抗网络,由两对判别器和生成器组成,每个生成器对应一个判别器;
[0012]S4.利用步骤S1生成的数据训练步骤S3的模型:
[0013]S5.测试档案数据:重复步骤S1

S4的操作,直到模型在验证集上的性能不再有提高的情况下,停止训练并保存此时的模型,然后将测试数据输入S4得到的模型测试模型的性能,若模型的性能能够满足档案数字化的需求,则将模型应用于档案数字化的过程中,否则重复步骤S1

S5。
[0014]优选地,步骤S1中,收集干净档案数据与带噪音档案数据,噪音有图像自带的装订孔、黑点、黑线、褶皱以及扫描过程中产生的黑边、黑点,将档案图像分为干净图像与噪音图像两组,利用这两组数据制作数据集,并按照一定的规则将数据集划分为训练集、验证集和
测试集。
[0015]优选地,步骤S1中,数据集划分为训练集、验证集和测试集具体以图像自带的装订孔、黑点、黑线、褶皱以及扫描过程中产生的黑边、黑点为特征进行划分。
[0016]优选地,步骤S2中,数据增强的操作主要包括亮度调整、对比度调整、饱和度调整、镜像翻转、旋转等操作。
[0017]优选地,步骤S3中生成器是一个无监督模型,由编码器和解码器两部分组成,在编码器部分采用bottle

neck连接来解决深层网络退化的问题,用于学习训练集数据的特征,在判别器的指导下,将随机噪音分布拟合为档案的真实分布情况。
[0018]优选地,步骤S3中:
[0019]第一个生成器GA将原始脏数据输入转换为干净输出,判别器DA尝试评估转换后的干净输出是真实或者生成图像,提供评估图像是真实图像的概率,并反馈给生成器。
[0020]第二个生成器GB将干净数据输入转换为脏数据,判别器尝试从生成的图像中识别出真实的脏数据,判别器DB采用全卷积神经网络(CNN),区分输入数据是真实或者生成器所生成的假数据。
[0021]优选地,步骤S4中具体训练过程为:
[0022]首先利用脏的档案数据训练判别器DA,将训练集中的脏数据和生成器生成的脏数据组成batch一同输入判别器中DA,对判别器进行训练;
[0023]其次训练判别器DB,其过程与判别器DA的训练方式一致,其中将输入数据换为训练集中的干净数据和生成的干净数据;
[0024]然后训练生成器GA,将脏数据输入生成器GA,同时把GB生成的数据输入GA来验证生成图像的一致性;
[0025]最后训练GB,与训练GA一致,其中输入数据由脏数据换位干净数据,同时输入GA生成的假的干净数据。
[0026]优选地,步骤S4中,在利用脏的档案数据训练判别器DA,将训练集中的脏数据和生成器生成的脏数据组成batch一同输入判别器中DA,对判别器进行训练过程中,仅更新判别器的参数,不更新生成器的参数。
[0027]综上,本专利技术的技术效果和优点:
[0028]本专利技术结构合理,通过根据档案图像的文本、格式、噪音等特征,利用图像的阈值操作、滤波、图像分割等技术,对含噪声图像和无噪声图像进行训练、测试等来估计神经网络的参数,获取基础去噪数据的最佳模型。由于图像中的噪音类型几乎一致,但背景和格式的区别,该方法又利用基础模型和不同项目的数据训练出适合不同项目的图像去噪模型。因此,该方法在能够有效去除单一噪声和混合噪声的同时,并且不改变图像本身的质量,提高了噪声去除的效率。且该方法适用于各类需要去除噪声的文本图像,有利于优化档案数字化的过程,减少档案数字化过程中的人力和时间消耗。
附图说明
[0029]为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这
些附图获得其他的附图。
[0030]图1为本专利技术的方法实施整体流程图;
[0031]图2为本专利技术的神经网络的结构图。
具体实施方式
[0032]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0033]实施例:参考图1

图2所示的一种辅助档案数字化的图像去噪方法,包括以下步骤:
[0034]S1.制作数据集:
[0035]收集干净档案数据,由扫描仪扫描获得;
[0036]收集带噪音档案数据,由扫描仪扫描获得;
[0037]利用干净档案数据和带噪音档案数据制作数据集,并将数据集分为训练集、验证集和测试集;具体的,收集干净档案数据与带噪音档案数据,噪音有图像自带的装订孔、黑点、黑线、褶皱以及扫描过程中产生的黑边、黑点,将档案图像分为干净图像与噪音图像两组,利用这两组数据制作数据集,并按照一定的规则将数据集划分为训练集、验证集和测试集。
[0038]在该步骤中,数据本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种辅助档案数字化的图像去噪方法,其特征在于,包括以下步骤:S1.制作数据集:收集干净档案数据,由扫描仪扫描获得;收集带噪音档案数据,由扫描仪扫描获得;利用干净档案数据和带噪音档案数据制作数据集,并将数据集分为训练集、验证集和测试集;S2.图像预处理:数据集中数据输入模型前对数据进行数据增强;S3.构建网络模型:循环生成对抗网络,由两对判别器和生成器组成,每个生成器对应一个判别器;S4.利用步骤S1生成的数据训练步骤S3的模型:S5.测试档案数据:重复步骤S1

S4的操作,直到模型在验证集上的性能不再有提高的情况下,停止训练并保存此时的模型,然后将测试数据输入S4得到的模型测试模型的性能,若模型的性能能够满足档案数字化的需求,则将模型应用于档案数字化的过程中,否则重复步骤S1

S5。2.根据权利要求1所述的一种辅助档案数字化的图像去噪方法,其特征在于:步骤S1中,收集干净档案数据与带噪音档案数据,噪音有图像自带的装订孔、黑点、黑线、褶皱以及扫描过程中产生的黑边、黑点,将档案图像分为干净图像与噪音图像两组,利用这两组数据制作数据集,并按照一定的规则将数据集划分为训练集、验证集和测试集。3.根据权利要求2所述的一种辅助档案数字化的图像去噪方法,其特征在于:步骤S1中,数据集划分为训练集、验证集和测试集具体以图像自带的装订孔、黑点、黑线、褶皱以及扫描过程中产生的黑边、黑点为特征进行划分。4.根据权利要求1所述的一种辅助档案数字化的图像去噪方法,其特征在于:步骤S2中,数据增强的操作主要包括亮度调整、对比度调整、饱和度调整、镜像翻转、旋转等操作。5.根据权利要求1所述的一种辅助档案数字化的图像去...

【专利技术属性】
技术研发人员:郭印樊作森
申请(专利权)人:豪波安全科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1