文档增强方法、装置、电子设备及存储介质制造方法及图纸

技术编号：39052043 阅读：13 留言：0更新日期：2023-10-12 19:44

本申请提供一种文档增强方法、装置、电子设备及存储介质，涉及图像处理领域。该方法包括：获取目标文档图像，目标文档图像包含多种退化场景。将目标文档图像输入预设的文档增强模型，通过文档增强模型对目标文档图像中的至少两种退化场景进行增强，得到增强文档图像。其中，文档增强模型具有对目标文档图像包含的多种退化场景中的至少两种进行增强的功能。该方法可以利用一种“端到端”文档图像增强网络，对多种复杂退化场景下的文档图像进行文档增强，增强后的文档图像视觉感受更佳，文字信息可以更加清晰可见。可以更加清晰可见。可以更加清晰可见。

全部详细技术资料下载

【技术实现步骤摘要】
文档增强方法、装置、电子设备及存储介质

[0001]本申请涉及图像处理领域，尤其涉及一种文档增强方法、装置、电子设备及存储介质。

技术介绍

[0002]在对纸质文档进行拍摄或扫描获取纸质文档对应的文档图像时，一些环境因素(如光线、纸质文档的摆放位置等)可能会导致获取到的文档图像表现出各种形式的退化，如：文档图像可能会存在阴影遮挡、反光(或称为高光)、模糊、褶皱等问题。针对文档图像表现出的退化问题，可以通过文档增强技术对文档图像进行优化，提升文档图像的质量。
[0003]目前的文档增强技术都是针对单一退化场景进行文档增强，每个文档增强网络唯一对应一种单一退化场景，一个文档增强网络只能解决一种单一退化场景下的文档增强问题。然而，在实际应用中，文档图像可能包含多种退化场景，目前的文档增强技术无法解决多种退化场景下的文档增强问题。
[0004]例如，某种文档增强网络可以根据输入的存在阴影遮挡的文档图像，输出去除阴影遮挡后的文档图像，实现针对阴影遮挡场景下的文档增强，但是该文档增强网络无法对图像的模糊进行改善。又例如，某种文档增强网络可以根据输入的存在模糊的文档图像，输出去除模糊后的文档图像，实现针对模糊场景下的文档增强，但是该文档增强网络无法对图像的反光进行改善等。

技术实现思路

[0005]本申请提供一种文档增强方法、装置、电子设备及存储介质，可以利用一种“端到端”文档图像增强网络，对多种复杂退化场景下的文档图像进行文档增强。该文档增强方法输出的增强后的文档图像视觉感受更佳，文字信息可以更加...

【技术保护点】

【技术特征摘要】
1.一种文档增强方法，其特征在于，所述方法包括：获取目标文档图像，所述目标文档图像包含多种退化场景；将所述目标文档图像输入预设的文档增强模型，通过所述文档增强模型对所述目标文档图像中的至少两种退化场景进行增强，得到增强文档图像；其中，所述文档增强模型具有对目标文档图像包含的多种退化场景中的至少两种进行增强的功能。2.根据权利要求1所述的方法，其特征在于，所述文档增强模型包括：多场景编解码模块和融合模块；所述通过所述文档增强模型对所述目标文档图像中的至少两种退化场景进行增强，得到增强文档图像，包括：通过所述多场景编解码模块预测所述目标文档图像中包含的至少两种退化场景分别对应的残差特征图；通过所述融合模块对所述至少两种退化场景分别对应的残差特征图、以及所述目标文档图像进行融合，得到所述增强文档图像。3.根据权利要求2所述的方法，其特征在于，所述通过所述融合模块对所述至少两种退化场景分别对应的残差特征图、以及所述目标文档图像进行融合，得到所述增强文档图像，包括：通过所述融合模块对所述至少两种退化场景分别对应的残差特征图进行卷积操作，得到第一卷积操作结果；通过所述融合模块对所述第一卷积操作结果和所述目标文档图像进行非线性卷积操作，得到所述增强文档图像。4.根据权利要求2或3所述的方法，其特征在于，所述多场景编解码模块通过采用样本集合对多场景编解码网络进行训练得到；所述样本集合包括多种退化场景对应的训练样本；每种退化场景对应的训练样本包括包含该种退化场景的第一样本文档图像，以及与所述第一样本文档图像包含的内容完全相同、但不包含退化场景的第二样本文档图像。5.根据权利要求2
‑
4任一项所述的方法，其特征在于，所述多场景编码模块包括共用的编码器和所述至少两种退化场景分别对应的解码器；所述通过所述多场景编解码模块预测所述目标文档图像中包含的至少两种退化场景分别对应的残差特征图，包括：通过所述编码器对所述目标文档图像进行下采样操作，提取所述目标文档图像的特征信息；通过所述至少两种退化场景分别对应的解码器，分别对所述特征信息进行预测得到所述至少两种退化场景分别对应的残差特征图。6.根据权利要求2
‑
4任一项所述的方法，其特征在于，所述多场景编码模块包括所述至少两种退化场景分别对应的编解码器；所述通过所述多场景编解码模块预测所述目标文档图像中包含的至少两种退化场景分别对应的残差特征图，包括：通过所述至少两种退化场景分别对应的编解码器，依次对所述目标文档图像进行下采
样操作，提取所述目标文档图像的特征信息，并根据所述特征信息预测得到所述至少两种退化场景分别对应的残差特征图。7.根据权利要求2
‑
6任一项所述的方法，其特征在于，所述多场景编解码模块包括：第一多场景编解码模块至第K多场景编解码模块，K为大于1的整数；所述融合模块包括与第一多场景编解码模块至第K多场景编解码模块一一对应的第一融合模块至第K融合模块；所述通过所述多场景编解码模块预测所述目标文档图像中包含的至少两种退化场景分别对应的残差特征图，以及通过所述融合模块对所述至少两种退化场景分别对应的残差特征图、以及所述目标文档图像进行融合，得到所述增强文档...

【专利技术属性】
技术研发人员：王超群，
申请(专利权)人：华为技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人