无约束褶皱文档图像矫正方法、系统、设备及存储介质技术方案

技术编号:38163280 阅读:16 留言:0更新日期:2023-07-13 09:37
本发明专利技术公开了一种无约束褶皱文档图像矫正方法、系统、设备及存储介质,它们是一一对应的方案,相关方案能够解决现有方案应用场景受限的问题,即不能矫正无文档边界或仅包含部分文档边界的形变文档图像。同时,本发明专利技术也提升了对于有完整文档边界的图像的矫正恢复效果。相较于传统方法,本发明专利技术对输入的褶皱文档图像无任何形式上的约束,能够更加鲁棒和准确地矫正日常生活中拍摄的各类形变文档图像,本发明专利技术可被广泛应用于智能手机等带有相机的便携式设备,应用场景更加广泛,准确率更高。因此,本发明专利技术将极大地促进文档图像数字化的普及,为纸质文档的数字化转换提供强有力的技术支持。质文档的数字化转换提供强有力的技术支持。质文档的数字化转换提供强有力的技术支持。

【技术实现步骤摘要】
无约束褶皱文档图像矫正方法、系统、设备及存储介质


[0001]本专利技术涉及褶皱文档图像矫正
,尤其涉及一种无约束褶皱文档图像矫正方法、系统、设备及存储介质。

技术介绍

[0002]随着便携式相机和智能手机的快速进步和普及,越来越多的人选择用它们拍摄扫描纸质文档,而不需要像以往一样使用专用平板扫描仪。然而,由于拍摄环境中诸多不确定因素,如相机位置不确定、光照环境不确定,以及纸张形变类型和程度不确定等,由这些设备拍摄的文档图像往往会带有不同程度的各式各样的失真和变形。这使得下游任务的处理,如自动化的文本识别、内容分析、编辑和理解等,变得更加困难。同时,这也不利于日常生活中信息和知识的传播和交流。为了解决这一问题,褶皱文档图像矫正成为了当前计算机视觉领域中的重要研究课题。
[0003]传统的解决方案主要基于3D重建技术。这些方法通常需要依赖附加的硬件设备(如激光扫描仪、深度相机等),或者是通过围绕褶皱纸张拍摄多视角图像,来重建纸张的三维立体结构,并在此基础上进行展平矫正。然而,由于较高的硬件成本或繁琐的拍摄要求,这些技术的推广和使用受到了极大的限制。
[0004]目前,许多智能手机都内置有文档矫正算法。这些算法大都基于投影变换技术:首先检测拍摄的文档图像中纸质文档的四条直线边缘或四个角点,形成文档所在的四边形区域;然后应用投影变换技术将其映射为规整的矩形图像,从而完成对拍摄文档图像的矫正。然而,这一解决方案要求拍摄的图像中,必须出现完整的文档,且如果文档本身存在形变无法进行矫正恢复,进而影响效果。这一限制同样带来了不便:很多时候,用户可能只关注于文档的部分区域。
[0005]近年来,深度学习被引入到褶皱文档图像矫正领域。相对于传统的方法,基于深度学习的方法在实现相似性能的同时,仅需要较少的计算开销。通过使用渲染引擎合成的大量形变

无形变图像对进行训练,神经网络学习到了矫正文档褶皱的能力。在推理阶段,输入单张褶皱的RGB文档图像,神经网络可以输出逐像素的坐标映射矩阵,将输入图像中褶皱文档区域中的像素采样到空图像中,得到完整的矫正图像。
[0006]总体来说,无论是智能手机内置的文档矫正算法,还是现有的深度学习方法,它们主要存在如下缺陷:
[0007](1)当前基于深度学习的文档图像矫正算法,普遍只能矫正有完整边界的褶皱文档图像,即输入图像中必须包含一个完整的文档。然而,在实际应用场景中,用户可能仅仅想要关注或者分享文档中的部分区域或文字。因此,拍摄的图像可能会存在文档边界缺失的情况。此外,通过手机拍摄的文档图像往往存在边缘部分缺失的情况。这种情况下,现有的文档图像矫正方法将会失效,无法得到正常的矫正结果。当前的技术方案,对于无文档边界或仅包含部分文档边界的文档图像的矫正问题,缺乏有效的研究,需要进一步探索和改进。
[0008](2)当前智能手机内置的文档图像矫正算法的适用场景受限。这些算法只适用于完整的、无形变的文档图像,即该纸质文档无折叠、弯曲和褶皱,且完整的出现在拍摄的图像中。简单来说,这些算法只是将纸质文档的成像投影平面切换到一个规则的矩形形状,一旦纸质文档的形状不是规则的四边形,这些算法就无法正常地完成文档图像矫正。
[0009](3)现有的基于深度学习的文档图像矫正算法,矫正的文档图像仍然存在一定程度的失真。这是因为,这些在模型训练时,仅考虑了有完整边界文档图像,忽略了无文档边界或仅包含部分文档边界的文档图像。而将后者纳入模型训练,能够有效地提高模型的准确性和鲁棒性。原因在于,让无文档边界或仅包含部分文档边界的文档图像加入训练,能够提升模型的泛化性,让模型更有效地学习如何利用图像中仅存的形变的文本行等特征来矫正图像。
[0010]有鉴于此,特提出本专利技术。

技术实现思路

[0011]本专利技术的目的是提供一种无约束褶皱文档图像矫正方法、系统、设备及存储介质,可以矫正无文档边界或仅包含部分文档边界的形变文档图像,也可以提升有完整文档边界图像的矫正效果。总而言之,本专利技术对输入的褶皱文档图像,无关于其中文档边界完整性及形变程度的约束,对各种形变文档图像均能有效地矫正恢复,且能够有效地提高文档图像矫正的实用性和实际应用效果。
[0012]本专利技术的目的是通过以下技术方案实现的:
[0013]一种无约束褶皱文档图像矫正方法,包括:
[0014]建模褶皱文档图像到无形变文档图像的像素映射关系,生成样本对,其中,每一样本对包含无约束褶皱文档图像块以及无约束褶皱文档图像块至无形变文档图像块的坐标映射矩阵;
[0015]构建无约束的文档图像矫正网络,并利用多个样本对形成的训练数据集进行训练;
[0016]将无约束褶皱文档图像输入至训练后的无约束的文档图像矫正网络,获得预测坐标映射矩阵,利用所述预测坐标映射矩阵对所述无约束褶皱文档图像矫正,获得矫正图像。
[0017]一种无约束褶皱文档图像矫正系统,包括:
[0018]像素映射关系建模与样本对生成单元,用于建模褶皱文档图像到无形变文档图像的像素映射关系,生成样本对,其中,每一样本对包含无约束褶皱文档图像块以及无约束褶皱文档图像块至无形变文档图像块的坐标映射矩阵;
[0019]网络构建与训练单元,用于构建无约束的文档图像矫正网络,并利用多个样本对形成的训练数据集进行训练;
[0020]图像矫正单元,用于将无约束褶皱文档图像输入至训练后的无约束的文档图像矫正网络,获得预测坐标映射矩阵,利用所述预测坐标映射矩阵对所述无约束褶皱文档图像矫正,获得矫正图像。
[0021]一种处理设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序;
[0022]其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现前述的方法。
[0023]一种可读存储介质,存储有计算机程序,当计算机程序被处理器执行时实现前述的方法。
[0024]由上述本专利技术提供的技术方案可以看出,能够解决现有方案应用场景受限的问题,即不能矫正无文档边界或仅包含部分文档边界的形变文档图像。同时,本专利技术也提升了对于有完整文档边界的图像的矫正恢复效果。相较于传统方法,本专利技术对输入的褶皱文档图像无任何形式上的约束,能够更加鲁棒和准确地矫正日常生活中拍摄的各类形变文档图像,本专利技术可被广泛应用于智能手机等带有相机的便携式设备,应用场景更加广泛,准确率更高。因此,本专利技术将极大地促进文档图像数字化的普及,为纸质文档的数字化转换提供强有力的技术支持。
附图说明
[0025]为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
[0026]图1为本专利技术实施例提供的一种无约束褶皱文档图像矫正方法的流程图;
[0027]图2为本专利技术实施例提供的输入形变文本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种无约束褶皱文档图像矫正方法,其特征在于,包括:建模褶皱文档图像到无形变文档图像的像素映射关系,生成样本对,其中,每一样本对包含无约束褶皱文档图像块以及无约束褶皱文档图像块至无形变文档图像块的坐标映射矩阵;构建无约束的文档图像矫正网络,并利用多个样本对形成的训练数据集进行训练;将无约束褶皱文档图像输入至训练后的无约束的文档图像矫正网络,获得预测坐标映射矩阵,利用所述预测坐标映射矩阵对所述无约束褶皱文档图像矫正,获得矫正图像。2.根据权利要求1所述的一种无约束褶皱文档图像矫正方法,其特征在于,所述建模褶皱文档图像到无形变文档图像的像素映射关系,生成样本对包括:获取具有完整边界的褶皱文档图像,然后使用其对应的坐标映射矩阵,将所述具有完整边界的褶皱文档图像矫正为无形变文档图像;在所述具有完整边界的褶皱文档图像中随机截取一个区域的图像块,称为无约束褶皱文档图像块,根据该区域的坐标映射矩阵找到无形变文档图像中对应区域,称为无形变文档图像块,再截取坐标映射矩阵中同区域的矩阵,即无约束褶皱文档图像块至无形变文档图像块的坐标映射矩阵;获得的无约束褶皱文档图像块以及无约束褶皱文档图像块至无形变文档图像块的坐标映射矩阵形成一个样本对。3.根据权利要求1所述的一种无约束褶皱文档图像矫正方法,其特征在于,所述构建无约束的文档图像矫正网络,并利用多个样本对形成的训练数据集进行训练包括:构建包含特征提取器与特征解码器的无约束的文档图像矫正网络;训练时,输入为样本对中的无约束褶皱文档图像块,通过特征提取器进行特征提取,并通过特征解码器输出预测坐标映射矩阵,将样本对中的无约束褶皱文档图像块至无形变文档图像块的坐标映射矩阵作为监督信息,与预测坐标映射矩阵构建损失函数训练所述无约束的文档图像矫正网络。4.根据权利要求1所述的一种无约束褶皱文档图像矫正方法,其特征在于,所述利用所述预测坐标映射矩阵对所述无约束褶皱文档图像矫正,获得矫正图像包括:利用上采样算法,通过预测坐标映射矩阵对所述无约束褶皱文档图像进行矫正,得到矫正图像。5.一种无约束褶皱文档图像矫正系统,其特征在于,包括:像素映射关系建模与样本对生成单元,用于建模褶皱文档图像到无形变文档图像的像素映射关系,生成样本对,其中,每一样本对包含无约束褶皱文档图像块以及无约束褶皱文档图像...

【专利技术属性】
技术研发人员:李厚强周文罡冯浩刘绍锴
申请(专利权)人:中国科学技术大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1