【技术实现步骤摘要】
一种基于深度学习语义分割的文档矫正方法
本专利技术涉及图像处理
,具体涉及一种基于深度学习语义分割的文档矫正方法。
技术介绍
移动产品日益渗透人们的日常生活,使用移动端进行文档扫描已经成为一种趋势,应用市场中解决此类需求的软件产品亦越来越多。但追求移动端文档扫描带来的便利时,亦遭遇其技术实现层面上的各种局限,如镜片引起光路折射带来的镜头畸变、三维空间投影到成像平面带来的透视畸变、文档平面本身凹凸的扭曲等,这些因素成为移动端文档扫描普及的一个重大阻碍。目前,传统的针对扭曲文档图像的矫正算法一般主要包括基于硬件矫正以及基于3D建模矫正。对于基于硬件矫正的方法,通常使用特制的硬件设备扫描纸张的三维形状信息,比如采用结构光源来对文档进行扫描从而获取文档的三维信息即深度信息,然后根据深度信息对文档图像进行矫正。由于硬件设备体积较大且占用空间,不仅不便于携带,而且当遇到空间较小的场景时,不足以提供硬件设备工作的空间,从而限制了方案的应用场合、自由度和便利度。对于基于3D建模矫正的方法,主要从造成文档扭曲的因素出发并根据实际 ...
【技术保护点】
1.一种基于深度学习语义分割的文档矫正方法,其特征在于,包括:/n利用深度神经网络模型对待矫正图像的文档像素分类,获得文档语义分割特征图;/n根据文档语义分割特征图对文档进行轮廓分析,确定待矫正图像中的文档形变信息;/n构造辅助矫正平面,并获取待矫正图像中的文档形变信息在辅助矫正平面上的变换关系,通过变换关系进行图像矫正。/n
【技术特征摘要】
1.一种基于深度学习语义分割的文档矫正方法,其特征在于,包括:
利用深度神经网络模型对待矫正图像的文档像素分类,获得文档语义分割特征图;
根据文档语义分割特征图对文档进行轮廓分析,确定待矫正图像中的文档形变信息;
构造辅助矫正平面,并获取待矫正图像中的文档形变信息在辅助矫正平面上的变换关系,通过变换关系进行图像矫正。
2.根据权利要求1所述的一种基于深度学习语义分割的文档矫正方法,其特征在于,在利用深度神经网络对待矫正图像进行特征提取之前进行深度神经网络模型的训练,具体包括:
采集训练样本图像;
对训练样本图像进行打标,描绘出文档在图像中的轮廓,并将打标后的图像转换成训练标签数据;
利用训练样本图像和训练标签数据进行深度学习训练,构建一可从样本图像中计算出标签数据的深度神经网络模型;
对深度神经网络模型进行多次训练,使深度神经网络模型的损失值下降至预定范围内。
3.根据权利要求1所述的一种基于深度学习语义分割的文档矫正方法,其特征在于,根据文档语义分割特征图对文档进行轮廓分析,确定待矫正图像中的文档形变信息,具体包括:
对待矫正图像进行顶层轮廓检测;
对文档语义分割特征图进行文档目标区域检测,将检测出来的文档目标区域集合建立文档目标信息列表,记录各个文档目标区域的信息;
对文档语义分割特征图中的进行直线检测,将检测到的直线拟合出来,并将拟合出的直线集合建立直线信息列表,记录各个直线的信息;
将直线归类到对应的文档目标区域中并进行编码;
对文档目标区域及文档目标区域内的直线进行筛选,确定真实的文档区域及其边角信息。
4.根据权利要求3所述的一种基于深度学习语义分割的文档矫正方法,其特征在于,记录各个文档目标区域的信息包括文档目标区域的中心位置、文档目标区域的范围及文档目标区域的大小;记录各个直线的信息至少包括直线的位置、直线段长及直线斜率。
...
【专利技术属性】
技术研发人员:涂旭平,林浩泓,黄斐,
申请(专利权)人:东莞市七宝树教育科技有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。