文档矫正方法、装置、电子设备和存储介质制造方法及图纸

技术编号：35215493 阅读：20 留言：0更新日期：2022-10-15 10:30

本公开提供了一种文档矫正方法、装置、电子设备和存储介质，涉及人工智能领域，具体涉及深度学习、图像处理和计算机视觉等技术领域，可应用于OCR等场景。文档矫正方法的具体实现方案为：对包括待矫正文档的原始图像进行语义分割，得到边缘像素点；基于边缘像素点，确定第一边缘线；根据矫正后文档对应的图像尺寸，确定目标图像的网格图像；对第一边缘线和网格图像的第二边缘线进行等分处理，分别得到第一边缘线的第一关键点和第二边缘线中与第一关键点对应的第二关键点；以及根据第一关键点和第二关键点之间的对应关系，生成目标图像。生成目标图像。生成目标图像。

全部详细技术资料下载

【技术实现步骤摘要】
文档矫正方法、装置、电子设备和存储介质

[0001]本公开涉及人工智能领域，具体涉及深度学习、图像处理和计算机视觉等领域，可应用于OCR等场景。

技术介绍

[0002]随着计算机技术和网络技术的发展，深度学习技术在众多领域得到了广泛应用。例如，可以基于深度学习技术来实现对文档的矫正。其中，对文档矫正是指将扭曲变形的文档图像进行矫正还原的过程。对文档矫正可以作为一种图像预处理手段，以为文字检测等下游任务的实现做准备。

技术实现思路

[0003]本公开旨在提供一种提高稳定性和泛化能力的文档矫正方法、装置、电子设备和存储介质。
[0004]根据本公开的一个方面，提供了一种文档矫正方法，包括：对包括待矫正文档的原始图像进行语义分割，得到边缘像素点；基于边缘像素点，确定第一边缘线；根据矫正后文档对应的图像尺寸，确定目标图像的网格图像；对第一边缘线和网格图像的第二边缘线进行等分处理，分别得到第一边缘线的第一关键点和第二边缘线中与第一关键点对应的第二关键点；以及根据第一关键点和第二关键点之间的对应关系，生成目标图像。
[0005]根据本公开的另一个方面，提供了一种文档矫正装置，包括：语义分割模块，用于对包括待矫正文档的原始图像进行语义分割，得到边缘像素点；边缘线确定模块，用于基于边缘像素点，确定第一边缘线；网格图像确定模块，用于根据矫正后文档对应的图像尺寸，确定目标图像的网格图像；关键点获得模块，用于对第一边缘线和网格图像的第二边缘线进行等分处理，分别得到第一边缘线的第一关键点和第二边缘线中与第一关...

【技术保护点】

【技术特征摘要】
1.一种文档矫正方法，包括：对包括待矫正文档的原始图像进行语义分割，得到边缘像素点；基于所述边缘像素点，确定第一边缘线；根据矫正后文档对应的图像尺寸，确定目标图像的网格图像；对所述第一边缘线和所述网格图像的第二边缘线进行等分处理，分别得到所述第一边缘线的第一关键点和所述第二边缘线中与所述第一关键点对应的第二关键点；以及根据所述第一关键点和所述第二关键点之间的对应关系，生成所述目标图像。2.根据权利要求1所述的方法，其中，所述边缘像素点对应至少两个预定类别；所述预定类别与边缘线相对于文档所在的方位相关；所述基于所述边缘像素点，确定第一边缘线，包括：响应于根据所述边缘像素点的类别确定所述待矫正文档是双页文档，确定所述边缘像素点中属于所述双页文档中每个的单页文档的边缘点；以及基于所述单页文档的边缘点，确定所述单页文档的所述第一边缘线。3.根据权利要求2所述的方法，其中，所述预定类别包括：上边缘类别、下边缘类别、中边缘类别、左边缘类别和右边缘类别；所述方法还包括：响应于确定所述边缘像素点的类别包括所述中边缘类别或者所述边缘像素点的类别包括所述预定类别的全部类别，确定所述待矫正文档为双页文档。4.根据权利要求1～3中任一项所述的方法，其中，所述对包括待矫正文档的原始图像进行语义分割，得到边缘像素点包括：采用语义分割模型对所述原始图像进行处理，得到所述原始图像中每个像素点属于至少两个类别中每个类别的概率值；以及基于所述概率值，确定所述边缘像素点，其中，所述至少两个类别包括：背景类别和至少两个预定类别。5.根据权利要求2所述的方法，其中，所述基于所述边缘像素点，确定第一边缘线，还包括：响应于根据所述边缘像素点的类别确定所述待矫正文档不是所述双页文档，确定所述待矫正文档为单页文档，并确定所述边缘像素点中属于所述单页文档的边缘点。6.根据权利要求2或5所述的方法，其中，所述基于所述单页文档的边缘点，确定所述单页文档的所述第一边缘线，包括：基于所述单页文档的边缘点，采用多项式拟合算法确定所述第一边缘线。7.根据权利要求6所述的方法，其中，所述基于所述单页文档的边缘点，采用多项式拟合算法确定所述第一边缘线包括：基于所述单页文档的边缘点，采用所述多项式拟合算法确定分别针对至少两个预定阶次的至少两个边缘线拟合数据；以及根据所述边缘线拟合数据中与所述单页文档的边缘点之间的差异最小的目标拟合数据，确定所述第一边缘线。8.根据权利要求7所述的方法，其中，所述根据所述边缘线拟合数据中与所述单页文档的边缘点之间的差异最小的目标拟合数据，确定所述第一边缘线包括：
根据所述目标拟合数据，确定所述单页文档的顶点位置；以及根据所述顶点位置和所述目标拟合数据，确定经过所述顶点位置且围成封闭区域的边缘线，得到所述第一边缘线。9.根据权利要求2、5～8中任一项所述的方法，其中，所述单页文档的边缘点包括至少两个目标类别的至少两组边缘点；所述目标类别包括：所述预定类别中与边缘线相对于文档所在的四个方位相对应的四个类别；所述基于所述单页文档的边缘点，确定所述单页文档的第一边缘线包括：基于每个所述目标类别的一组边缘点，确定每个所述目标类别的参考边缘点；以及基于所述参考边缘点，确定所述待矫正文档在每个所述目标类别对应的方位的边缘线。10.根据权利要求9所述的方法，其中，所述基于每个所述目标类别的一组边缘点，确定每个所述目标类别的参考边缘点包括：对于每个所述目标类别的一组边缘点中垂直于目标方向排列的至少两个边缘点，确定至少两个所述边缘点的坐标值的平均值所指示的点为所述参考边缘点，其中，所述目标方向为每个所述目标类别所对应的方位所在方向。11.根据权利要求1所述的方法，其中，所述根据所述第一关键点和所述第二关键点之间的对应关系，生成所述目标图像包括：根据所述第一关键点和所述第二关键点之间的对应关系，采用非刚性变换算法确定所述网格图像中像素点与所述原始图像中像素点之间的映射关系；以及根据所述映射关系及所述原始图像中像素点的像素值，生成所述目标图像。12.一种文档矫正装置，包括：语义分割模块，用于对包括待矫正文档的原始图像进行语义分割，得到边缘像素点；边缘线确定模块，用于基于所述边缘像素点，确定第一边缘线；网格图像确定模块，用于根据矫正后文档对应的图像尺寸，确定目标图像的网格图像；关键点获得模块，用于对所述第一边缘线和所述网格图像的第二边...

【专利技术属性】
技术研发人员：谢群义，钦夏孟，白瑞斌，章成全，姚锟，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人