【技术实现步骤摘要】
本专利技术属于文档校正,涉及一种基于深度学习的文档图像形状校正方法及系统。
技术介绍
1、文档图像是指使用智能手机或相机拍摄的含有丰富文本、图像、表格等信息的图像,且随着智能手机和相机的普及,越来越多人选择手工拍摄照片的方式来快速、及时地保存信息。
2、ocr(optical character recognition,光学字符识别)是指对图片中的文字进行查找、提取、识别的一种技术,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程。与扫描图像不同,在自然场景下,手工拍摄的文档图像常因为种种因素对ocr的提取和识别信息产生干扰,造成信息错误或丢失的情况,如相机角度不平衡、纸张表面褶皱不平、光照不均匀等。
3、在深度学习普及之前,大多数对文档图像的校正方法是通过估计文档图像的三维形状来构建2d或3d的校正模型,主要方法有:1)利用辅助硬件来捕捉弯曲文档的3d结构;2)利用文档图像的几何属性来建立数学模型;3)利用文档图像的视觉线索(纸张边界、文本行、阴影明暗信息)来构建文档表面形状。
...【技术保护点】
1.一种基于深度学习的文档图像形状校正方法,其特征在于,包括如下步骤:
2.如权利要求1所述的基于深度学习的文档图像形状校正方法,其特征在于,所述前处理的方法为:
3.如权利要求1所述的基于深度学习的文档图像形状校正方法,其特征在于,所述编码器网络得到包含丰富几何失真的特征图的方法为:
4.如权利要求1所述的基于深度学习的文档图像形状校正方法,其特征在于,空洞卷积金字塔模块设置2个预测分支,通过线性层预测控制点的水平和垂直间隔(v,h),并通过Conv层整合通道数和特征图大小,预测控制点坐标,控制点坐标图大小为(2,H/32,W/3
...【技术特征摘要】
1.一种基于深度学习的文档图像形状校正方法,其特征在于,包括如下步骤:
2.如权利要求1所述的基于深度学习的文档图像形状校正方法,其特征在于,所述前处理的方法为:
3.如权利要求1所述的基于深度学习的文档图像形状校正方法,其特征在于,所述编码器网络得到包含丰富几何失真的特征图的方法为:
4.如权利要求1所述的基于深度学习的文档图像形状校正方法,其特征在于,空洞卷积金字塔模块设置2个预测分支,通过线性层预测控制点的水平和垂直间隔(v,h),并通过conv层整合通道数和特征图大小,预测控制点坐标,控制点坐标图大小为(2,h/32,w/32),控制点坐标图的2通道分别代表坐标的横坐标、纵坐标x,y值;
5.如权利要求1所述的基于深度学习的文档图像形状校正方法,其特征在于,将孪生网络引入编码器网络中,获取两张内容不同的文档图像,并进行相同的变形预处理,变形预处理后的文档图像输入前处理网络中,执行步骤s2-s4,得到控制点...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。