一种基于深度学习语义分割的文档矫正方法技术

技术编号:25524458 阅读:204 留言:0更新日期:2020-09-04 17:13
本发明专利技术涉及图像处理技术领域,具体涉及一种基于深度学习语义分割的文档矫正方法,包括利用深度神经网络模型对待矫正图像的文档像素分类,获得文档语义分割特征图;对文档进行轮廓分析,确定待矫正图像中的文档形变信息;构造辅助矫正平面,并获取待矫正图像中的文档形变信息在辅助矫正平面上的变换关系,通过变换关系进行图像矫正,以此取消了额外的硬件设备来获取足够的拍摄自由度,突破了操作门槛、应用场景等因素导致的局限性,而且面对复杂文档或带复杂背景的文档时仍能精准可靠地进行图像矫正。

【技术实现步骤摘要】
一种基于深度学习语义分割的文档矫正方法
本专利技术涉及图像处理
,具体涉及一种基于深度学习语义分割的文档矫正方法。
技术介绍
移动产品日益渗透人们的日常生活,使用移动端进行文档扫描已经成为一种趋势,应用市场中解决此类需求的软件产品亦越来越多。但追求移动端文档扫描带来的便利时,亦遭遇其技术实现层面上的各种局限,如镜片引起光路折射带来的镜头畸变、三维空间投影到成像平面带来的透视畸变、文档平面本身凹凸的扭曲等,这些因素成为移动端文档扫描普及的一个重大阻碍。目前,传统的针对扭曲文档图像的矫正算法一般主要包括基于硬件矫正以及基于3D建模矫正。对于基于硬件矫正的方法,通常使用特制的硬件设备扫描纸张的三维形状信息,比如采用结构光源来对文档进行扫描从而获取文档的三维信息即深度信息,然后根据深度信息对文档图像进行矫正。由于硬件设备体积较大且占用空间,不仅不便于携带,而且当遇到空间较小的场景时,不足以提供硬件设备工作的空间,从而限制了方案的应用场合、自由度和便利度。对于基于3D建模矫正的方法,主要从造成文档扭曲的因素出发并根据实际情况应用假设完成数学建模,这些因素包括文档摆放角度、光源位置、图像采集设备参数(如镜头畸变)等,通过对这些因素的建模和求取参数,完成其图像逆运算即矫正。这种方法往往需要多角度采集图像,才能获得足够求解方程组重建文档图像的3D模型,同样会受到运用场景的限制。因此,行业内亟需一种能解决上述问题的方案。
技术实现思路
本专利技术的目的在于针对现有技术的不足而提供一种基于深度学习语义分割的文档矫正方法。本专利技术的目的可以通过如下所述技术方案来实现。一种基于深度学习语义分割的文档矫正方法,包括:利用深度神经网络模型对待矫正图像的文档像素分类,获得文档语义分割特征图;根据文档语义分割特征图对文档进行轮廓分析,确定待矫正图像中的文档形变信息;构造辅助矫正平面,并获取待矫正图像中的文档形变信息在辅助矫正平面上的变换关系,通过变换关系进行图像矫正。作为优选地,在利用深度神经网络对待矫正图像进行特征提取之前进行深度神经网络模型的训练,具体包括:采集训练样本图像;对训练样本图像进行打标,描绘出文档在图像中的轮廓,并将打标后的图像转换成训练标签数据;利用训练样本图像和训练标签数据进行深度学习训练,构建一可从样本图像中计算出标签数据的深度神经网络模型;对深度神经网络模型进行多次训练,使深度神经网络模型的损失值下降至预定范围内。作为优选地,根据文档语义分割特征图对文档进行轮廓分析,确定待矫正图像中的文档形变信息,具体包括:对待矫正图像进行顶层轮廓检测;对文档语义分割特征图进行文档目标区域检测,将检测出来的文档目标区域集合建立文档目标信息列表,记录各个文档目标区域的信息;对文档语义分割特征图中的进行直线检测,将检测到的直线拟合出来,并将拟合出的直线集合建立直线信息列表,记录各个直线的信息;将直线归类到对应的文档目标区域中并进行编码;对文档目标区域及文档目标区域内的直线进行筛选,确定真实的文档区域及其边角信息。作为优选地,记录各个文档目标区域的信息包括文档目标区域的中心位置、文档目标区域的范围及文档目标区域的大小;记录各个直线的信息至少包括直线的位置、直线段长及直线斜率。作为优选地,对文档目标区域及文档目标区域内的直线进行筛选,确定真实的文档区域及其边角信息,具体包括:通过文档目标区域的中心位置、文档目标区域的范围及文档目标区域的大小来区分真实的文档区域和干扰的文档区域;其中,目标区域的中心位置较靠近待矫正图像中心位置的、文档目标区域的范围较广的及文档目标区域的大小较大的为真实的文档区域;获取真实的文档区域内的直线,通过直线的位置、直线段长并结合直线斜率对应的关系来确定真实的文档区域边线;通过真实的文档区域边线确定其边角信息。作为优选地,构造辅助矫正平面,并获取待矫正图像中的文档形变信息在辅助矫正平面上的变换关系,通过变换关系进行图像矫正,具体包括:选取采集待矫正图像的尺寸构造辅助矫正平面;将文档形变信息投射在辅助矫正平面上,并计算出文档形变信息在投射在辅助矫正平面上的透视变换矩阵;将待矫正图像重映射到辅助矫正平面上,应用透视变换矩阵进行矫正图像。一种计算机可读存储设备,存储有计算机程序,所述计算机程序被处理器执行以实上述的基于深度学习语义分割的文档矫正方法。一种移动终端,包括:处理器,适于执行程序指令;存储设备,适于存储程序指令,所述程序指令适于由处理器加载并执行以实现上述的基于深度学习语义分割的文档矫正方法。一种基于深度学习语义分割的文档矫正方法的系统,包括服务器;服务器包括处理器和存储设备;处理器,适于执行程序指令;存储设备,适于存储程序指令,所述程序指令适于由处理器加载并执行以实现上述的基于深度学习语义分割的文档矫正方法。与现有技术比,本专利技术的有益效果:本专利技术研发了一种基于深度学习语义分割的文档矫正方法,借助深度学习图像技术来识别出图像中的文档形变信息,再通过计算获得文档形变信息在辅助矫正平面上的变换关系,通过变换关系进行图像矫正,以此取消了额外的硬件设备来获取足够的拍摄自由度,突破了操作门槛、应用场景等因素导致的局限性,而且面对复杂文档或带复杂背景的文档时仍能精准可靠地进行图像矫正。附图说明图1为本专利技术实施例中的流程示意图;图2为本专利技术实施例中的待矫正图像的示意图;图3为图2转化后的文档语义分割特征图的示意图;图4为本专利技术实施例中顶层轮廓检测的示意图;图5为本专利技术实施例中文档目标信息列表的示意图;图6为本专利技术实施例中直线信息列表的示意图;图7为本专利技术实施例中出现断边时的直线信息列表的示意图;图8为本专利技术实施例中图2矫正后的图像的示意图。具体实施方式下面将结合具体实施例,对本专利技术的技术方案进行清楚、完整的描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通的技术人员在没有做出创造性劳动的前提下所获得的所有其它实施例,都属于本专利技术的保护范围。针对现有的扭曲文档图像的矫正算法中,需要对物体进行多方面拍摄并结合一系列参数进行图像矫正的方法,容易受到操作门槛、应用场景等因素的制约,本专利技术提供一种基于深度学习语义分割的文档矫正方法,无需额外的硬件设备及其系统标定等支撑,手机等移动设备可获取足够的拍摄自由度,降低了移动端文档扫描用户的操作门槛。并且本专利技术借助深度学习图像识别技术,面对复杂文档和复杂拍摄背景时仍表现出良好的可靠性和准确度,突破了当前移动端文档扫描的技术瓶颈和场景限制,扩展了更多的可支持场景,具备良好可靠的文档识别能力,可以省去一些当前的补救措施,如主流的措施是让用户调整文档边角点信息的操作环节,从而提高移本文档来自技高网...

【技术保护点】
1.一种基于深度学习语义分割的文档矫正方法,其特征在于,包括:/n利用深度神经网络模型对待矫正图像的文档像素分类,获得文档语义分割特征图;/n根据文档语义分割特征图对文档进行轮廓分析,确定待矫正图像中的文档形变信息;/n构造辅助矫正平面,并获取待矫正图像中的文档形变信息在辅助矫正平面上的变换关系,通过变换关系进行图像矫正。/n

【技术特征摘要】
1.一种基于深度学习语义分割的文档矫正方法,其特征在于,包括:
利用深度神经网络模型对待矫正图像的文档像素分类,获得文档语义分割特征图;
根据文档语义分割特征图对文档进行轮廓分析,确定待矫正图像中的文档形变信息;
构造辅助矫正平面,并获取待矫正图像中的文档形变信息在辅助矫正平面上的变换关系,通过变换关系进行图像矫正。


2.根据权利要求1所述的一种基于深度学习语义分割的文档矫正方法,其特征在于,在利用深度神经网络对待矫正图像进行特征提取之前进行深度神经网络模型的训练,具体包括:
采集训练样本图像;
对训练样本图像进行打标,描绘出文档在图像中的轮廓,并将打标后的图像转换成训练标签数据;
利用训练样本图像和训练标签数据进行深度学习训练,构建一可从样本图像中计算出标签数据的深度神经网络模型;
对深度神经网络模型进行多次训练,使深度神经网络模型的损失值下降至预定范围内。


3.根据权利要求1所述的一种基于深度学习语义分割的文档矫正方法,其特征在于,根据文档语义分割特征图对文档进行轮廓分析,确定待矫正图像中的文档形变信息,具体包括:
对待矫正图像进行顶层轮廓检测;
对文档语义分割特征图进行文档目标区域检测,将检测出来的文档目标区域集合建立文档目标信息列表,记录各个文档目标区域的信息;
对文档语义分割特征图中的进行直线检测,将检测到的直线拟合出来,并将拟合出的直线集合建立直线信息列表,记录各个直线的信息;
将直线归类到对应的文档目标区域中并进行编码;
对文档目标区域及文档目标区域内的直线进行筛选,确定真实的文档区域及其边角信息。


4.根据权利要求3所述的一种基于深度学习语义分割的文档矫正方法,其特征在于,记录各个文档目标区域的信息包括文档目标区域的中心位置、文档目标区域的范围及文档目标区域的大小;记录各个直线的信息至少包括直线的位置、直线段长及直线斜率。

...

【专利技术属性】
技术研发人员:涂旭平林浩泓黄斐
申请(专利权)人:东莞市七宝树教育科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1