基于文本检测和表格检测的电子卷宗图像智能矫正方法技术

技术编号：40290029 阅读：7 留言：0更新日期：2024-02-07 20:41

本发明专利技术公开了基于文本检测和表格检测的电子卷宗图像智能矫正方法，首先对图像进行预处理，消除对边界线检测的影响。然后利用文本检测算法构建文本检测模型，计算图像中文本区域文本的边界线范围；利用目标检测算法构建表格检测模型，计算图像中表格区域表格的边界线范围；利用轻量级深度学习神经网络框架构建大角度识别模型，识别电子卷宗图像的大范围倾斜角度。根据拟合后的边界线得到文本区域的倾斜角度，根据拟合后的边界线得到表格区域的倾斜角度，对文本图像和表格图像采用不同的矫正方式。最后对图像进行后处理。本方法通过深度学习的方式训练得到的模型能达到更好的矫正效果，有效减少因人为操作不当导致的矫正效果不理想等问题。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术基于深度学习技术，提出了一种针对司法领域中的电子卷宗图像的智能矫正方法。属于计算机视觉，具体涉及深度学习、目标检测等技术。

技术介绍

1、与其他行业相比，法律业务场景中充斥着浩繁的卷宗，近年来各类型法律案件数量激增，纸质卷宗的各种缺点被逐渐暴露出来，催化了卷宗数字化、智能化的普及。随着计算机技术的不断发展，电子卷宗图像凭借其便于存储和查找、传播快捷简便等优势，被越来越多的人们所接受。纸质卷宗转化为电子卷宗图像需要借助于扫描仪、相机、智能手机等工具进行拍摄或扫描，这个过程中不可避免的会出现扫描后的电子卷宗图像扭曲变形等问题，不利于后续的阅读和ocr文字识别。

2、图像矫正在ocr识别中是一个很重要的应用。ocr识别是通过一系列技术将图翻译成文本的过程，通过ocr识别出的结果，可以为上层应用提供便利，对材料进行分析提取。例如在法院立案及案件审理过程中，随时都有卷宗材料生成，这些都是需要扫描归档的。由于扫描时的各种失误，极易导致图像发生倾斜，不仅不美观，而且对于图像信息的利用也有一定影响。这时候矫正就发挥了重大的作用，对图像进行矫正然后通过ocr文字识别将图像中的信息转换成文本，提高识别准确度。

3、电子卷宗图像大部分为文档图像，包含文字、表格、图片等内容，扫描后图像可能会出现简单倾斜或者梯形倾斜，现有的针对这两类倾斜图像基本都采用传统的图像处理方法，由于传统方法对两类倾斜图像矫正方式不同，并且无法区分是哪种倾斜，因此很多场景下图像矫正默认进行简单倾斜的图像矫正，梯形倾斜需要后续发现时手动将图像的四个

4、传统方法对于简单倾斜的矫正：其中一种常用方法是基于方向投影的方法：利用图像的一个共同特点就是需要矫正的图像前景是矩形或者类矩形。比如，表格轮廓和票据等都有一个矩形框，通过计算矩形的倾斜角度来矫正图像。这种方法的缺点是只能对具有矩形特征的图像矫正，如果图像没有明显的矩形特性时，该方法效果不理想甚至失效。此外，如果图像只有纯文本且文本倾斜时，虽然纸张有矩形特性，但是由于纸张不属于前景，前景中没有矩形框于是该方法没办法矫正图像。另一种常用方法是基于hough变换方法：扫描图像中文本特征，拟合直线，通过计算直线的斜率来矫正图像。这种方法的缺点是hough变换的时间复杂度大，特别是图像、文字等目标像素点较多时，处理时间太长，并且前景目标如文字等较少或没有时，拟合结果准确度会很低，或者前景目标如二维码等较为集中时，拟合结果准确度会很低。

5、传统方法对于梯形倾斜的矫正：其中一种是矫正梯形畸变的系统及方法：首先获取投影参数，然后确定投影区域和适合于所述投影区域内部的最佳可视矩形区域，通过一个与存在于最佳可视矩形区域的顶点和投影区域的对应顶点之间的变换对应的畸变变换，特征化由投影引起的畸变，最后翻转所述畸变变换并将其应用于输入图像，以获得无畸变的投影图像。该方法利用投影参数和设备来找到对应的转换顶点，对于没有设备信息的图像来说难以实现。另一种常用的是基于显示的四点定位校正畸形的算法：利用定位设备的显示系统中设定的四个定位点坐标，通过在对应的x轴和y轴坐标加入相应的变形补偿量计算与四个定位点匹配映射的四个显示点。该方法对于不同种类的图像难以适用，如表格类与图形类图像效果不好，并且图像内容定位点的计算也有一定的不准确。

6、虽然采用传统方法内存占用比较轻量，但速度和矫正准确率并不优秀，对文本和表格的部分倾斜不能找到合适的矫正角度，重要的是不能自动矫正梯形倾斜图像，包含人工参与的过程会导致效率大大降低。虽然纸质卷宗出现梯形倾斜的数量较少，或者只是小角度的梯形倾斜，但也有自动矫正的必要，目的是减少人为操作次数。图像需要人工处理，不仅增加了用户的操作难度，降低了批量图像优化处理的速度，无法满足用户大批量的图像处理需求，而且可能因为人为框选不当导致矫正效果不理想。近年来随着深度学习的不断发展，为图像矫正提供了新的发展思路。

7、文本检测利用计算机视觉技术和图像处理方法，通过分析图像的特征、边缘检测以及物体识别，对图像中的文本区域进行定位，通过文本检测可以得到文本区域的边界。表格检测是指从图像或文档中自动检测和提取出表格结构，通过表格检测可以得到表格区域的边界。

技术实现思路

1、考虑到电子卷宗图像的日益增加、传统识别方法效果有限等问题，本专利技术提出一种基于文本检测和表格检测的电子卷宗图像智能矫正方法。这种方法无需区分图像的倾斜是简单倾斜还是梯型倾斜，可以对两类倾斜图像自动矫正，无需人为操作，并且通过深度学习的方式训练得到的模型能达到更好的矫正效果，有效减少因人为操作不当导致的矫正效果不理想等问题。

2、本专利技术采用的技术方案为基于文本检测和表格检测的电子卷宗图像智能矫正方法，首先对图像进行预处理，消除对边界线检测的影响。然后利用文本检测算法构建文本检测模型，计算图像中文本区域文本的边界线范围；利用目标检测算法构建表格检测模型，计算图像中表格区域表格的边界线范围；利用轻量级深度学习神经网络框架构建大角度识别模型，识别电子卷宗图像的大范围倾斜角度。接下来根据拟合后的边界线得到文本区域的倾斜角度，根据拟合后的边界线得到表格区域的倾斜角度，对文本图像和表格图像采用不同的矫正方式。最后对图像进行后处理，包括利用构建的大角度识别模型识别电子卷宗图像的大范围倾斜角度并进行旋转矫正。包括如下步骤：

3、步骤1，基于深度学习模型的训练；

4、(1)构建深度学习模型模型；

5、本专利技术的训练对象为电子卷宗图像，为了有效检测出图像的倾斜程度，首先构建基于文本检测算法dbnet(differentiable binarization)的文本检测模型，在预训练数据集上学习电子卷宗图像文本区域的边界特征，该文本检测模型使用可微二值且自适应阈值以及可变卷积，提取到的特征更精确，分类及预测也更准确；

6、构建基于目标检测算法yolov5(you only look once)的表格检测模型，在预训练数据集上学习电子卷宗图像表格区域的边界特征，该表格检测模型是一种全面而高效的目标检测模型，适用于多种应用场景，在保持高性能的同时，提供轻量级、高效率和通用性；

7、构建基于轻量级深度学习神经网络框架mobilenetv3的大角度识别模型，在预训练数据集上学习电子卷宗图像的大角度倾斜程度，该大角度识别模型设计轻量、计算效率高并且延迟低，可以及时有效的检测出图像的大角度偏转。

8、(2)深度学习模模型预训练；

9、对于文本检测模型、表格检测模型，数据集为搜集的电子卷宗图像以及带有文本和表格的图像共6700个，其中电子卷宗图像大部分是通过扫描仪扫描纸质文档和高拍仪高拍纸质文档得到，并且带有具体信息的地方经过数据脱敏，具体信息被抹掉。上述数据集包含了不同光照条件、倾斜程度、图像质量的纯文本、纯表格、纯图片以及三者均有的混合图像，可以有效学习不同条件下的深度特征；对于大角度识别模型，数据集本文档来自技高网...

【技术保护点】

1.基于文本检测和表格检测的电子卷宗图像智能矫正方法，其特征在于，首先对图像进行预处理，消除对边界线检测的影响；然后利用文本检测算法构建文本检测模型，计算图像中文本区域文本的边界线范围；利用目标检测算法构建表格检测模型，计算图像中表格区域表格的边界线范围；利用轻量级深度学习神经网络框架构建大角度识别模型，识别电子卷宗图像的大范围倾斜角度；接下来根据拟合后的边界线得到文本区域的倾斜角度，根据拟合后的边界线得到表格区域的倾斜角度，对文本图像和表格图像采用不同的矫正方式；对图像进行后处理，包括利用构建的大角度识别模型识别电子卷宗图像的大范围倾斜角度并进行旋转矫正。

2.根据权利要求1所述的基于文本检测和表格检测的电子卷宗图像智能矫正方法，其特征在于，该方法的实施步骤如下：

3.根据权利要求1所述的基于文本检测和表格检测的电子卷宗图像智能矫正方法，其特征在于，特征金字塔网络为基础网络架构，ResNet-50作为骨干网络；从骨干网络输出的四个特征图经过FPN处理得到四个128通道的特征图{f2,f3,f4,f5}；使用1×1卷积约束特征图fi的通道数为64，输出四个

4.根据权利要求3所述的基于文本检测和表格检测的电子卷宗图像智能矫正方法，其特征在于，输入h×w×3的图像，首先经过ResNet-50的五层卷积；五层卷积分别得到原尺寸1/2、1/4、1/8、1/16、1/32大小的特征图，通道数分别是64、128、256、512、1024；对1/32大小的特征图进行卷积，卷积核大小1×1，通道数为128，然后利用激活函数Relu和最大池化得到特征图f5为h/32×w/32×128；对特征图f5上采样2倍得到h/16×w/16×128与开始得到的1/16的特征图逐元素相加得到新的1/16的特征图f4；同理，对特征图f4上采样2倍得到的h/8×w/8×128与开始得到的1/8特征图逐元素相加得到新的1/8特征图f3；对特征图f3上采样2倍得到的h/4×w/4×128与开始得到的1/4特征图逐元素相加得到新的1/4特征图f2，到此得到特征图{f2,f3,f4,f5}，分别为{h/4×w/4×128，h/8×w/8×128，h/16×w/16×128，h/32×w/32×128}；对fi执行卷积操作，卷积核大小为1×1，通道数为64：对特征图f5执行卷积后上采样8倍得到P5，对特征图f4执行卷积后上采样4倍得到P4，对特征图f3执行卷积后上采样2倍得到P3，对特征图f2执行卷积后得到P2，到此得到特征图{P2,P3,P4,P5}，大小均为h/4×w/4×64，将其逐元素相加得到新的1/4原尺寸大小的特征图F；接下来根据特征F用于预测概率图P和阈值图T，最后通过P和F得到对文本进行范围框标注的近似二值图。

5.根据权利要求1所述的基于文本检测和表格检测的电子卷宗图像智能矫正方法，其特征在于，表格检测采用目标检测算法YOLOv5作为检测模型；YOLOv5使用CSPDarknet53作为骨干网络，其中CSP表示Cross-Stage Partial Networks；CSPDarknet53是Darknet53的改进版本，通过在网络的中间阶段引入跨阶段局部连接，提高特征传播效率。

6.根据权利要求5所述的基于文本检测和表格检测的电子卷宗图像智能矫正方法，其特征在于，特征金字塔网络FPN：FPN用于融合不同层级的特征图，以捕获不同尺度上的目标信息；PANet用于进一步提高特征的语义信息，并通过级联特征金字塔网络的方式，聚合不同阶段的特征图，增强网络对目标的理解；输出层：YOLOv5的输出层包括多个检测头，每个检测头负责预测不同尺度上的目标；每个检测头输出的预测包括目标的类别概率、边界框的位置和目标的置信度。

7.根据权利要求6所述的基于文本检测和表格检测的电子卷宗图像智能矫正方法，其特征在于，MobileNetV3采用轻量级的网络结构，包括多个独立的块blocks，每个块包含一系列的深度可分离卷积和激活函数；MobileNetV3引入两种类型的块，分别是InvertedResidual Block和Linear Bottleneck Block，这些块旨在提高模型的非线性表示能力和信息流动性；MobileNetV3使用"Hard Swish"的激活函数。

...

【技术特征摘要】

2.根据权利要求1所述的基于文本检测和表格检测的电子卷宗图像智能矫正方法，其特征在于，该方法的实施步骤如下：

3.根据权利要求1所述的基于文本检测和表格检测的电子卷宗图像智能矫正方法，其特征在于，特征金字塔网络为基础网络架构，resnet-50作为骨干网络；从骨干网络输出的四个特征图经过fpn处理得到四个128通道的特征图{f2,f3,f4,f5}；使用1×1卷积约束特征图fi的通道数为64，输出四个特征图{p2,p3,p4,p5}；将resnet-50主干中conv3、conv4和conv5阶段的3×3卷积使用可变形卷积替代。

4.根据权利要求3所述的基于文本检测和表格检测的电子卷宗图像智能矫正方法，其特征在于，输入h×w×3的图像，首先经过resnet-50的五层卷积；五层卷积分别得到原尺寸1/2、1/4、1/8、1/16、1/32大小的特征图，通道数分别是64、128、256、512、1024；对1/32大小的特征图进行卷积，卷积核大小1×1，通道数为128，然后利用激活函数relu和最大池化得到特征图f5为h/32×w/32×128；对特征图f5上采样2倍得到h/16×w/16×128与开始得到的1/16的特征图逐元素相加得到新的1/16的特征图f4；同理，对特征图f4上采样2倍得到的h/8×w/8×128与开始得到的1/8特征图逐元素相加得到新的1/8特征图f3；对特征图f3上采样2倍得到的h/4×w/4×128与开始得到的1/4特征图逐元素相加得到新的1/4特征图...

【专利技术属性】
技术研发人员：王敬逾，禹晶，肖创柏，
申请(专利权)人：北京工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人