文档矫正方法、装置、电子设备和存储介质制造方法及图纸

技术编号:35215493 阅读:20 留言:0更新日期:2022-10-15 10:30
本公开提供了一种文档矫正方法、装置、电子设备和存储介质,涉及人工智能领域,具体涉及深度学习、图像处理和计算机视觉等技术领域,可应用于OCR等场景。文档矫正方法的具体实现方案为:对包括待矫正文档的原始图像进行语义分割,得到边缘像素点;基于边缘像素点,确定第一边缘线;根据矫正后文档对应的图像尺寸,确定目标图像的网格图像;对第一边缘线和网格图像的第二边缘线进行等分处理,分别得到第一边缘线的第一关键点和第二边缘线中与第一关键点对应的第二关键点;以及根据第一关键点和第二关键点之间的对应关系,生成目标图像。生成目标图像。生成目标图像。

【技术实现步骤摘要】
文档矫正方法、装置、电子设备和存储介质


[0001]本公开涉及人工智能领域,具体涉及深度学习、图像处理和计算机视觉等领域,可应用于OCR等场景。

技术介绍

[0002]随着计算机技术和网络技术的发展,深度学习技术在众多领域得到了广泛应用。例如,可以基于深度学习技术来实现对文档的矫正。其中,对文档矫正是指将扭曲变形的文档图像进行矫正还原的过程。对文档矫正可以作为一种图像预处理手段,以为文字检测等下游任务的实现做准备。

技术实现思路

[0003]本公开旨在提供一种提高稳定性和泛化能力的文档矫正方法、装置、电子设备和存储介质。
[0004]根据本公开的一个方面,提供了一种文档矫正方法,包括:对包括待矫正文档的原始图像进行语义分割,得到边缘像素点;基于边缘像素点,确定第一边缘线;根据矫正后文档对应的图像尺寸,确定目标图像的网格图像;对第一边缘线和网格图像的第二边缘线进行等分处理,分别得到第一边缘线的第一关键点和第二边缘线中与第一关键点对应的第二关键点;以及根据第一关键点和第二关键点之间的对应关系,生成目标图像。
[0005]根据本公开的另一个方面,提供了一种文档矫正装置,包括:语义分割模块,用于对包括待矫正文档的原始图像进行语义分割,得到边缘像素点;边缘线确定模块,用于基于边缘像素点,确定第一边缘线;网格图像确定模块,用于根据矫正后文档对应的图像尺寸,确定目标图像的网格图像;关键点获得模块,用于对第一边缘线和网格图像的第二边缘线进行等分处理,分别得到第一边缘线的第一关键点和第二边缘线中与第一关键点对应的第二关键点;以及目标图像生成模块,用于根据第一关键点和第二关键点之间的对应关系,生成目标图像。
[0006]根据本公开的另一个方面,提供了一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行本公开提供的文档矫正方法。
[0007]根据本公开的另一个方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于使计算机执行本公开提供的文档矫正方法。
[0008]根据本公开的另一个方面,提供了一种计算机程序产品,包括计算机程序/指令,所述计算机程序/指令在被处理器执行时实现本公开提供的文档矫正方法。
[0009]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0010]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0011]图1是根据本公开实施例的文档矫正方法和装置的应用场景示意图;
[0012]图2是根据本公开实施例的文档矫正方法的流程示意图;
[0013]图3是根据本公开实施例的得到待矫正文档的边缘像素点的原理示意图;
[0014]图4是根据本公开第一实施例的确定待矫正文档的第一边缘线的原理示意图;
[0015]图5是根据本公开第二实施例的确定待矫正文档的第一边缘线的原理示意图;
[0016]图6是根据本公开第三实施例的确定待矫正文档的第一边缘线的原理示意图;
[0017]图7是根据本公开实施例的确定映射关系的原理示意图;
[0018]图8是根据本公开实施例的文档矫正装置的结构框图;以及
[0019]图9是用来实施本公开实施例的文档矫正方法的电子设备的框图。
具体实施方式
[0020]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0021]文档矫正是通过采用技术手段将扭曲变形的文档图像进行矫正还原的过程。文档矫正作为一种有效的图像预处理手段,能够提升下游的文字检测和识别任务的精度及识别效果。在光学字符识别(Optical Character Recognition,OCR)场景中,文档矫正技术通常被作为一种标准化预处理技术集成于文字识别产品中。
[0022]例如,可以采用端到端的模型来对文档图像进行处理,并得到矫正后图像。其中,端到端的模型通常是在合成的文档图像上进行的训练,将该端到端的模型应用到实际场景中,可能会存在泛化效果较差,矫正准确度低的问题。再者,在采用端到端的模型预测矫正后的图像的方式,预测图像的精度往往受模型精度的影响,存在矫正后图像的误差较大,且矫正后图像的精度不稳定的情况。
[0023]基于此,本公开旨在提供一种提高稳定性和泛化能力的文档矫正方法、装置、电子设备和存储介质。
[0024]以下将结合图1对本公开提供的方法和装置的应用场景进行描述。
[0025]图1是根据本公开实施例的文档矫正方法和装置的应用场景示意图。
[0026]如图1所示,该实施例的应用场景100可以包括电子设备110,该电子设备110可以为具有处理功能的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机、台式计算机和服务器等等。
[0027]该电子设备110例如可以对输入的包括待矫正文档的图像120进行处理,以对该图像120中的待矫正文档进行矫正,得到矫正后文档图像130。其中,电子设备110可以先识别待矫正文档的边框,随后根据该边框的顶点坐标与目标平面的坐标点的坐标来计算表示图像120与校正后文档图像130之间的映射关系的矩阵。最后根据该矩阵对图像120进行变换,得到校正后文档图像130。
[0028]在一实施例中,电子设备110可以基于深度学习模型来完成文档的矫正。例如,可
以采用深度学习模型来识别待矫正文档的边框。该深度学习模型例如可以为语义分割模型、目标检测模型等,本公开对此不做限定。
[0029]在一实施例中,如图1所示,该应用场景100中还可以包括服务器140,该服务器140例如可以为支持电子设备110中客户端应用运行的后台管理服务器。电子设备110可以通过网络与服务器140通信连接,网络可以包括有线或无线通信链路。
[0030]例如,服务器140可以预先训练有深度学习模型150。该服务器140可以响应于电子设备110的请求,将训练得到的满足精度要求的深度学习模型150发送给电子设备110,以使得电子设备110能够基于深度学习模型来完成文档的矫正。
[0031]在一实施例中,电子设备110例如也可以将包括待矫正文档的图像120发送给服务器140,由服务器基于满足精度要求的深度学习模型150来对图像120进行处理,从而得到矫正后文档图像130。
[0032]需要说明的是,本公开提供的文档矫正方法可以由电子设备110执行,也可以由服务器140执行。相应地,本公开提供的文档矫正装置可本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文档矫正方法,包括:对包括待矫正文档的原始图像进行语义分割,得到边缘像素点;基于所述边缘像素点,确定第一边缘线;根据矫正后文档对应的图像尺寸,确定目标图像的网格图像;对所述第一边缘线和所述网格图像的第二边缘线进行等分处理,分别得到所述第一边缘线的第一关键点和所述第二边缘线中与所述第一关键点对应的第二关键点;以及根据所述第一关键点和所述第二关键点之间的对应关系,生成所述目标图像。2.根据权利要求1所述的方法,其中,所述边缘像素点对应至少两个预定类别;所述预定类别与边缘线相对于文档所在的方位相关;所述基于所述边缘像素点,确定第一边缘线,包括:响应于根据所述边缘像素点的类别确定所述待矫正文档是双页文档,确定所述边缘像素点中属于所述双页文档中每个的单页文档的边缘点;以及基于所述单页文档的边缘点,确定所述单页文档的所述第一边缘线。3.根据权利要求2所述的方法,其中,所述预定类别包括:上边缘类别、下边缘类别、中边缘类别、左边缘类别和右边缘类别;所述方法还包括:响应于确定所述边缘像素点的类别包括所述中边缘类别或者所述边缘像素点的类别包括所述预定类别的全部类别,确定所述待矫正文档为双页文档。4.根据权利要求1~3中任一项所述的方法,其中,所述对包括待矫正文档的原始图像进行语义分割,得到边缘像素点包括:采用语义分割模型对所述原始图像进行处理,得到所述原始图像中每个像素点属于至少两个类别中每个类别的概率值;以及基于所述概率值,确定所述边缘像素点,其中,所述至少两个类别包括:背景类别和至少两个预定类别。5.根据权利要求2所述的方法,其中,所述基于所述边缘像素点,确定第一边缘线,还包括:响应于根据所述边缘像素点的类别确定所述待矫正文档不是所述双页文档,确定所述待矫正文档为单页文档,并确定所述边缘像素点中属于所述单页文档的边缘点。6.根据权利要求2或5所述的方法,其中,所述基于所述单页文档的边缘点,确定所述单页文档的所述第一边缘线,包括:基于所述单页文档的边缘点,采用多项式拟合算法确定所述第一边缘线。7.根据权利要求6所述的方法,其中,所述基于所述单页文档的边缘点,采用多项式拟合算法确定所述第一边缘线包括:基于所述单页文档的边缘点,采用所述多项式拟合算法确定分别针对至少两个预定阶次的至少两个边缘线拟合数据;以及根据所述边缘线拟合数据中与所述单页文档的边缘点之间的差异最小的目标拟合数据,确定所述第一边缘线。8.根据权利要求7所述的方法,其中,所述根据所述边缘线拟合数据中与所述单页文档的边缘点之间的差异最小的目标拟合数据,确定所述第一边缘线包括:
根据所述目标拟合数据,确定所述单页文档的顶点位置;以及根据所述顶点位置和所述目标拟合数据,确定经过所述顶点位置且围成封闭区域的边缘线,得到所述第一边缘线。9.根据权利要求2、5~8中任一项所述的方法,其中,所述单页文档的边缘点包括至少两个目标类别的至少两组边缘点;所述目标类别包括:所述预定类别中与边缘线相对于文档所在的四个方位相对应的四个类别;所述基于所述单页文档的边缘点,确定所述单页文档的第一边缘线包括:基于每个所述目标类别的一组边缘点,确定每个所述目标类别的参考边缘点;以及基于所述参考边缘点,确定所述待矫正文档在每个所述目标类别对应的方位的边缘线。10.根据权利要求9所述的方法,其中,所述基于每个所述目标类别的一组边缘点,确定每个所述目标类别的参考边缘点包括:对于每个所述目标类别的一组边缘点中垂直于目标方向排列的至少两个边缘点,确定至少两个所述边缘点的坐标值的平均值所指示的点为所述参考边缘点,其中,所述目标方向为每个所述目标类别所对应的方位所在方向。11.根据权利要求1所述的方法,其中,所述根据所述第一关键点和所述第二关键点之间的对应关系,生成所述目标图像包括:根据所述第一关键点和所述第二关键点之间的对应关系,采用非刚性变换算法确定所述网格图像中像素点与所述原始图像中像素点之间的映射关系;以及根据所述映射关系及所述原始图像中像素点的像素值,生成所述目标图像。12.一种文档矫正装置,包括:语义分割模块,用于对包括待矫正文档的原始图像进行语义分割,得到边缘像素点;边缘线确定模块,用于基于所述边缘像素点,确定第一边缘线;网格图像确定模块,用于根据矫正后文档对应的图像尺寸,确定目标图像的网格图像;关键点获得模块,用于对所述第一边缘线和所述网格图像的第二边...

【专利技术属性】
技术研发人员:谢群义钦夏孟白瑞斌章成全姚锟
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1