当前位置: 首页 > 专利查询>重庆大学专利>正文

基于深度学习的文档图像形状校正方法及系统技术方案

技术编号:41208587 阅读:13 留言:0更新日期:2024-05-09 23:30
本发明专利技术属于文档校正技术领域,具体公开了一种基于深度学习的文档图像形状校正方法及系统,该方法包括如下步骤:S1,获取输入文档图像并输入前处理网络,得到文档mask图像;S2,文档mask图像与原输入文档图像进行点乘,得到去除背景的文档图像;S3,去除背景的文档图像作为编码器网络的输入,得到包含丰富几何失真的特征图;S4,将包含丰富几何失真的特征图输入解码器网络和空洞卷积金字塔模块,得到文本行mask预测图和控制点坐标图;S5,基于控制点坐标图中的控制点在原始图像上采用TPS插值方法,得到最终的校正图像。采用本技术方案,去除背景像素对图像校正产生的影响,关注文本内容的细微变形,提高校正的准确性和鲁棒性。

【技术实现步骤摘要】

本专利技术属于文档校正,涉及一种基于深度学习的文档图像形状校正方法及系统


技术介绍

1、文档图像是指使用智能手机或相机拍摄的含有丰富文本、图像、表格等信息的图像,且随着智能手机和相机的普及,越来越多人选择手工拍摄照片的方式来快速、及时地保存信息。

2、ocr(optical character recognition,光学字符识别)是指对图片中的文字进行查找、提取、识别的一种技术,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程。与扫描图像不同,在自然场景下,手工拍摄的文档图像常因为种种因素对ocr的提取和识别信息产生干扰,造成信息错误或丢失的情况,如相机角度不平衡、纸张表面褶皱不平、光照不均匀等。

3、在深度学习普及之前,大多数对文档图像的校正方法是通过估计文档图像的三维形状来构建2d或3d的校正模型,主要方法有:1)利用辅助硬件来捕捉弯曲文档的3d结构;2)利用文档图像的几何属性来建立数学模型;3)利用文档图像的视觉线索(纸张边界、文本行、阴影明暗信息)来构建文档表面形状。p>

4、随着深本文档来自技高网...

【技术保护点】

1.一种基于深度学习的文档图像形状校正方法,其特征在于,包括如下步骤:

2.如权利要求1所述的基于深度学习的文档图像形状校正方法,其特征在于,所述前处理的方法为:

3.如权利要求1所述的基于深度学习的文档图像形状校正方法,其特征在于,所述编码器网络得到包含丰富几何失真的特征图的方法为:

4.如权利要求1所述的基于深度学习的文档图像形状校正方法,其特征在于,空洞卷积金字塔模块设置2个预测分支,通过线性层预测控制点的水平和垂直间隔(v,h),并通过Conv层整合通道数和特征图大小,预测控制点坐标,控制点坐标图大小为(2,H/32,W/32),控制点坐标图的...

【技术特征摘要】

1.一种基于深度学习的文档图像形状校正方法,其特征在于,包括如下步骤:

2.如权利要求1所述的基于深度学习的文档图像形状校正方法,其特征在于,所述前处理的方法为:

3.如权利要求1所述的基于深度学习的文档图像形状校正方法,其特征在于,所述编码器网络得到包含丰富几何失真的特征图的方法为:

4.如权利要求1所述的基于深度学习的文档图像形状校正方法,其特征在于,空洞卷积金字塔模块设置2个预测分支,通过线性层预测控制点的水平和垂直间隔(v,h),并通过conv层整合通道数和特征图大小,预测控制点坐标,控制点坐标图大小为(2,h/32,w/32),控制点坐标图的2通道分别代表坐标的横坐标、纵坐标x,y值;

5.如权利要求1所述的基于深度学习的文档图像形状校正方法,其特征在于,将孪生网络引入编码器网络中,获取两张内容不同的文档图像,并进行相同的变形预处理,变形预处理后的文档图像输入前处理网络中,执行步骤s2-s4,得到控制点...

【专利技术属性】
技术研发人员:何静媛唐蕾文静王翊
申请(专利权)人:重庆大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1