一种基于扫描的英语作文试卷版面分析方法技术

技术编号：27937365 阅读：21 留言：0更新日期：2021-04-02 14:17

本发明专利技术公开了一种基于扫描的英语作文试卷版面分析方法，涉及文本检测领域。针对扫描的英语作文试卷这种特殊的文档图像数据，提出了基于语义分割方法解决手写文本检测的方案。整体基于语义分割网络架构，利用Resnet‑Block(残差结构)提取手写文本特征，实现英语作文试卷前景和背景的分离，并设计了多比例特征图融合机制和特殊的图像标签预处理机制，提高了手写文本检测召回率，提高了不规则形状文本检测效果，解决了近邻文本行的易粘连难分割问题，简化了语义分割的后处理过程，提高了OCR(光学字符识别)效率。本发明专利技术主要包含以下步骤：数据预处理、网络结构设计、目标函数设计、网络输出后处理。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于扫描的英语作文试卷版面分析方法
本专利技术涉及深度学习图像语义分割领域，具体涉及到一种基于扫描的英语试卷作文版面分析方法。
技术介绍
现有的基于英语作文试卷版面分析方法主要分为基于传统图像处理算法和基于深度学习方法。不同的方法都是基于提取图像中的内容特征区分手写文本区域和其他区域。传统图像处理算法主要提取图像中几何信息，例如作文答题区域边界框，以及答题框内答题线信息来确定学生手写英语文本位置信息。通过调研和实验发现提取几何信息能够检测提取出文本位置信息，但是当扫描图片包含扫描噪声，学生涂改书写错误答案破坏答题线，作文答题线非常规几何形状的时候，传统算法并不能很好的泛化上述情况，无法有效完整提取学生答题区域。基于深度学习方法主要分为文本行检测和文本语义分割。文本行检测能够有效检测水平竖直倾斜文本，能够有效定位学生手写文本，能够有效区分非答题机器打印文本和手写文本，但是学生答题文档与普通打印文档不同在于，学生在修改答题答案时，在空白处书写非水平文本，文本检测方法很难处理任意形状文本定位。基于文本语义分割能够有效分割手写文本区域和非手写文本区域，能够解决处理书写文本的不规则形状，但是分割方法在处理密集文本时，非常容易将多行文本融合提取，不能分割文本行相互重叠的情况，导致后处理非常复杂。综上所述，对于英语作文试卷文本区域提取，采用现有方法并不可行。本专利技术将基于英语作文答题试卷上述的特性，提出一种合理高效高准确率的版面分析方法。
技术实现思路
本专利技术的目的在于：针对英...

【技术保护点】
1.一种基于扫描的英语作文试卷版面分析方法，基于语义分割网络U-net结构设计，其特征在于，包含Resnet-Block特征提取部分、多尺度特征图融合部分、网络输出定义部分以及数据标签预处理部分。/n

【技术特征摘要】
1.一种基于扫描的英语作文试卷版面分析方法，基于语义分割网络U-net结构设计，其特征在于，包含Resnet-Block特征提取部分、多尺度特征图融合部分、网络输出定义部分以及数据标签预处理部分。

2.如权利要求1所述的一种基于扫描的英语作文试卷版面分析方法，其特征在于，所述Resnet-Block特征提取部分能够在加大网络层数的同时，不增加网络参数的优化难度；在计算机视觉里，特征的等级随着网络深度的加深而变高，提高网络深度是实现好的效果的重要因素之一；然而梯度消散或爆炸成为训练深层次的网络的障碍，导致无法收敛；虽然初始归一化、层输入归一化等方式可以使得网络的深度提升为原来的数倍，然而，目标损失收敛了，但网络却开始退化了，即增加网络层数却导致更大的误差；Resnet-Block结构的设计，使得网络梯度反向传播始终保持较大值，能够保持网络深度的同时，保证网络不退化。

3.如权利要求1所述的一种基于扫描的英语作文试卷版面分析方法，其特征在于，所述多尺度特征图融合部分具体描述为：在图像下采样阶段分别保存原始图像尺寸二分之一、四分之一、八分之一和十六分之一大小的特征图，在图像特征上采样的过程中分别融合不同尺度大小的特征图，使用特征通道拼接，然后使用1x1卷积进行特征融合；不同尺度的特征能够分割不同尺寸大小的文本行，尺寸较大特征图能够保留图片中较短文本行特征，每个段落最后一行短文本或者书信格式作文的开头落款文本；尺寸较小特征图由于拥有较大的感受野，能够保留原始图片中长文本行的图像特征；通过1x1卷积进行特征融合能够减少网络参数，融合长短文本所需图像特征，能够有效检测出英语作文图片中不同尺寸的文本行。

4.如权利要求1所述的一种基于扫描的英语作文试卷版面分析方法，其特征在于，所述网络输出定义部分具体描述为：输出图像包含7层channel(通道)，即输出特征图为(H/2,W/2,7)维度；其中第一个channel维度表示原始图像文本区域Mask表示，第二和第三维度表示文本区域属于文本开始部分还是结束部分，第四五六七维度则表示文本开头或结尾部分回归的坐标值；根据网络输出第一维度信息确定分割文本位置，根据第二三维度信息确定文本区域头部和尾部，最后根据最后四个维度的坐标信息确定最终文本行位置。

5.如权利要求1...

【专利技术属性】
技术研发人员：李哲，侯冲，陈家海，叶家鸣，吴波，
申请(专利权)人：安徽七天教育科技有限公司，
类型：发明
国别省市：安徽;34

全部详细技术资料下载我是这个专利的主人