文档增强方法、装置、电子设备及存储介质制造方法及图纸

技术编号:39052043 阅读:13 留言:0更新日期:2023-10-12 19:44
本申请提供一种文档增强方法、装置、电子设备及存储介质,涉及图像处理领域。该方法包括:获取目标文档图像,目标文档图像包含多种退化场景。将目标文档图像输入预设的文档增强模型,通过文档增强模型对目标文档图像中的至少两种退化场景进行增强,得到增强文档图像。其中,文档增强模型具有对目标文档图像包含的多种退化场景中的至少两种进行增强的功能。该方法可以利用一种“端到端”文档图像增强网络,对多种复杂退化场景下的文档图像进行文档增强,增强后的文档图像视觉感受更佳,文字信息可以更加清晰可见。可以更加清晰可见。可以更加清晰可见。

【技术实现步骤摘要】
文档增强方法、装置、电子设备及存储介质


[0001]本申请涉及图像处理领域,尤其涉及一种文档增强方法、装置、电子设备及存储介质。

技术介绍

[0002]在对纸质文档进行拍摄或扫描获取纸质文档对应的文档图像时,一些环境因素(如光线、纸质文档的摆放位置等)可能会导致获取到的文档图像表现出各种形式的退化,如:文档图像可能会存在阴影遮挡、反光(或称为高光)、模糊、褶皱等问题。针对文档图像表现出的退化问题,可以通过文档增强技术对文档图像进行优化,提升文档图像的质量。
[0003]目前的文档增强技术都是针对单一退化场景进行文档增强,每个文档增强网络唯一对应一种单一退化场景,一个文档增强网络只能解决一种单一退化场景下的文档增强问题。然而,在实际应用中,文档图像可能包含多种退化场景,目前的文档增强技术无法解决多种退化场景下的文档增强问题。
[0004]例如,某种文档增强网络可以根据输入的存在阴影遮挡的文档图像,输出去除阴影遮挡后的文档图像,实现针对阴影遮挡场景下的文档增强,但是该文档增强网络无法对图像的模糊进行改善。又例如,某种文档增强网络可以根据输入的存在模糊的文档图像,输出去除模糊后的文档图像,实现针对模糊场景下的文档增强,但是该文档增强网络无法对图像的反光进行改善等。

技术实现思路

[0005]本申请提供一种文档增强方法、装置、电子设备及存储介质,可以利用一种“端到端”文档图像增强网络,对多种复杂退化场景下的文档图像进行文档增强。该文档增强方法输出的增强后的文档图像视觉感受更佳,文字信息可以更加清晰可见。
[0006]第一方面,本申请提供一种文档增强方法,所述方法包括:获取目标文档图像,目标文档图像包含多种退化场景。将目标文档图像输入预设的文档增强模型,通过文档增强模型对目标文档图像中的至少两种退化场景进行增强,得到增强文档图像。其中,文档增强模型具有对目标文档图像包含的多种退化场景中的至少两种进行增强的功能。
[0007]目前的文档增强技术中是每个文档增强网络唯一对应一种单一退化场景,一个文档增强网络只能解决一种单一退化场景下的文档增强问题。用户在拿到目标文档图像时,还需要判断需要采用哪些文档增强网络对目标文档图像进行文档增强。而在本申请实施例提供的该方法中,用户不再需要进行主观地判断,预设的文档增强模型可以自动对目标文档图像包含的每种退化场景进行增强,用户体验会更好。
[0008]另外,目前的文档增强技术中,即便用户一一采用多种文档增强网络分别对目标文档图像包含的每种退化场景进行增强,也会存在由于目标文档图像经过了多个文档增强网络而产生不同程度的损失的问题,会严重影响文档增强的效果。例如,目标文档图像在上一个文档增强网络中产生了损失,这种损失会影响到下一个文档增强网络的增强效果。而
在本申请实施例提供的该方法中,预设的文档增强模型可以对目标文档图像进行端到端的增强,中间并不会出现目标文档图像产生损失的问题,大大提升了文档增强的效果,而且能在图像质量本身较高时保持原始图像。基于此,本申请中所述的预设的文档增强模型也可以认为是“端到端”文档图像增强网络。
[0009]从存储空间的角度来看,本申请实施例提供的文档增强模型所占用的存储空间也会远远小于目前的文档增强技术中多种文档增强网络所占用的存储空间。
[0010]对于新出现的退化场景(文档增强模型还不能够进行增强的退化场景)而言,本申请实施例提供的文档增强模型还可以继续采用新的训练样本进行训练,具有一定的扩展性和可迁移能力。
[0011]一些实现方式中,所述文档增强模型包括:多场景编解码模块和融合模块。所述通过文档增强模型对目标文档图像中的至少两种退化场景进行增强,得到增强文档图像,包括:通过多场景编解码模块预测目标文档图像中包含的至少两种退化场景分别对应的残差特征图。通过融合模块对至少两种退化场景分别对应的残差特征图、以及目标文档图像进行融合,得到增强文档图像。
[0012]一些实现方式中,所述通过融合模块对至少两种退化场景分别对应的残差特征图、以及目标文档图像进行融合,得到增强文档图像,包括:通过融合模块对至少两种退化场景分别对应的残差特征图进行卷积操作,得到第一卷积操作结果。通过融合模块对第一卷积操作结果和目标文档图像进行非线性卷积操作,得到增强文档图像。
[0013]一些实现方式中,多场景编解码模块通过采用样本集合对多场景编解码网络进行训练得到。样本集合包括多种退化场景对应的训练样本。每种退化场景对应的训练样本包括包含该种退化场景的第一样本文档图像,以及与第一样本文档图像包含的内容完全相同、但不包含退化场景的第二样本文档图像。
[0014]一些实现方式中,所述多场景编码模块包括共用的编码器和所述至少两种退化场景分别对应的解码器。所述通过多场景编解码模块预测目标文档图像中包含的至少两种退化场景分别对应的残差特征图,包括:通过编码器对目标文档图像进行下采样操作,提取目标文档图像的特征信息。通过至少两种退化场景分别对应的解码器,分别对特征信息进行预测得到至少两种退化场景分别对应的残差特征图。
[0015]另外一些实现方式中,所述多场景编码模块包括所述至少两种退化场景分别对应的编解码器。所述通过多场景编解码模块预测目标文档图像中包含的至少两种退化场景分别对应的残差特征图,包括:通过至少两种退化场景分别对应的编解码器,依次对目标文档图像进行下采样操作,提取目标文档图像的特征信息,并根据特征信息预测得到至少两种退化场景分别对应的残差特征图。
[0016]一些实现方式中,所述多场景编解码模块包括:第一多场景编解码模块至第K多场景编解码模块,K为大于1的整数。所述融合模块包括与第一多场景编解码模块至第K多场景编解码模块一一对应的第一融合模块至第K融合模块。所述通过所述多场景编解码模块预测所述目标文档图像中包含的至少两种退化场景分别对应的残差特征图,以及通过所述融合模块对所述至少两种退化场景分别对应的残差特征图、以及所述目标文档图像进行融合,得到所述增强文档图像,包括:将所述目标文档图像分别输入第一多场景编解码模块至第K多场景编解码模块。通过第一多场景编解码模块预测输入的所述目标文档图像中所述
至少两种退化场景分别对应的残差特征图,并通过第一融合模块对第一多场景编解码模块预测的残差特征图进行融合得到第一残差特征图;通过第二多场景编解码模块,根据第一残差特征图预测输入的所述目标文档图像中所述至少两种退化场景分别对应的残差特征图,并通过第二融合模块对第二多场景编解码模块预测的残差特征图进行融合得到第二残差特征图;以此类推,通过第K多场景编解码模块,根据第(K

1)残差特征图预测输入的所述目标文档图像中所述至少两种退化场景分别对应的残差特征图,并通过第K融合模块对第K多场景编解码模块预测的残差特征图进行融合得到第K残差特征图。通过第K融合模块对第K残差特征图和所述目标文档图像进行融合,得到所述增强文档图像。
[0017]第一多场景编解码模块至第K多场景编解码模块中本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文档增强方法,其特征在于,所述方法包括:获取目标文档图像,所述目标文档图像包含多种退化场景;将所述目标文档图像输入预设的文档增强模型,通过所述文档增强模型对所述目标文档图像中的至少两种退化场景进行增强,得到增强文档图像;其中,所述文档增强模型具有对目标文档图像包含的多种退化场景中的至少两种进行增强的功能。2.根据权利要求1所述的方法,其特征在于,所述文档增强模型包括:多场景编解码模块和融合模块;所述通过所述文档增强模型对所述目标文档图像中的至少两种退化场景进行增强,得到增强文档图像,包括:通过所述多场景编解码模块预测所述目标文档图像中包含的至少两种退化场景分别对应的残差特征图;通过所述融合模块对所述至少两种退化场景分别对应的残差特征图、以及所述目标文档图像进行融合,得到所述增强文档图像。3.根据权利要求2所述的方法,其特征在于,所述通过所述融合模块对所述至少两种退化场景分别对应的残差特征图、以及所述目标文档图像进行融合,得到所述增强文档图像,包括:通过所述融合模块对所述至少两种退化场景分别对应的残差特征图进行卷积操作,得到第一卷积操作结果;通过所述融合模块对所述第一卷积操作结果和所述目标文档图像进行非线性卷积操作,得到所述增强文档图像。4.根据权利要求2或3所述的方法,其特征在于,所述多场景编解码模块通过采用样本集合对多场景编解码网络进行训练得到;所述样本集合包括多种退化场景对应的训练样本;每种退化场景对应的训练样本包括包含该种退化场景的第一样本文档图像,以及与所述第一样本文档图像包含的内容完全相同、但不包含退化场景的第二样本文档图像。5.根据权利要求2

4任一项所述的方法,其特征在于,所述多场景编码模块包括共用的编码器和所述至少两种退化场景分别对应的解码器;所述通过所述多场景编解码模块预测所述目标文档图像中包含的至少两种退化场景分别对应的残差特征图,包括:通过所述编码器对所述目标文档图像进行下采样操作,提取所述目标文档图像的特征信息;通过所述至少两种退化场景分别对应的解码器,分别对所述特征信息进行预测得到所述至少两种退化场景分别对应的残差特征图。6.根据权利要求2

4任一项所述的方法,其特征在于,所述多场景编码模块包括所述至少两种退化场景分别对应的编解码器;所述通过所述多场景编解码模块预测所述目标文档图像中包含的至少两种退化场景分别对应的残差特征图,包括:通过所述至少两种退化场景分别对应的编解码器,依次对所述目标文档图像进行下采
样操作,提取所述目标文档图像的特征信息,并根据所述特征信息预测得到所述至少两种退化场景分别对应的残差特征图。7.根据权利要求2

6任一项所述的方法,其特征在于,所述多场景编解码模块包括:第一多场景编解码模块至第K多场景编解码模块,K为大于1的整数;所述融合模块包括与第一多场景编解码模块至第K多场景编解码模块一一对应的第一融合模块至第K融合模块;所述通过所述多场景编解码模块预测所述目标文档图像中包含的至少两种退化场景分别对应的残差特征图,以及通过所述融合模块对所述至少两种退化场景分别对应的残差特征图、以及所述目标文档图像进行融合,得到所述增强文档...

【专利技术属性】
技术研发人员:王超群
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1