一种学生手写选择题识别方法技术

技术编号：28038446 阅读：23 留言：0更新日期：2021-04-09 23:21

本发明专利技术公开了一种学生手写选择题识别方法，涉及文本识别领域。针对学生手写选择题图像数据，提出了基于Attention机制解决手写文本识别的方案。整体基于残差网络架构，利用STN矫正有畸变的字符图像，利用channel Attention和spacial Attention机制在图像特征中更精准定位字符位置和更精准判断要识别的字符是什么，利用Seq2Seq加Attention机制在序列特征中更精确字符识别，通过超分辨分支网络提高识别网络对模糊字符的识别率，最大程度降低背景环境等因素对字符识别的干扰，提高了手写字符识别率，为人工智能阅卷系统工程落地奠定基础。本发明专利技术主要包含以下步骤：数据预处理、网络结构设计、目标函数设计、网络输出后处理。本发明专利技术设计合理，使用方便，效果良好。

全部详细技术资料下载

【技术实现步骤摘要】
一种学生手写选择题识别方法
本专利技术涉及深度学习OCR(光学字符识别)领域，具体涉及到一种学生手写选择题识别方法。
技术介绍
现有的学生手写选择题识别方法主要分为基于传统图像处理算法和基于深度学习方法。不同的方法都是基于提取图像中学生手写字符特征然后根据特征进行字符分类，完成识别过程。传统图像识别处理方法包括两步，字符切割及字符分类。字符切割主要包括二维直方图投影法和区域网格统计法。字符特征切割完之后就是字符识别，传统的识别算法将这一任务转换为一个分类任务。针对该任务，一系列的分类方法模型出现，主要包括：支持向量机(SVM)、K近邻算法、多层感知器(MLP)等。传统图像识别主要适用书写背景干净无噪声干扰，字符书写清晰规范的情况。针对学生选择题识别无法达到预期效果，主要原因包括字符背景复杂，多选题字符书写粘连，不能有效切割单字符，字符书写不够规范以及背景图案干扰，不能有效识别出字符。基于深度学习方法主要分为CTC(ConnectionistTemporalClassification，连接时序分类)和Seq2Seq(SequencetoSequence，序列到序列)两种形式。能够解决单字符和多字符识别问题中的对齐问题，直接实现端到端的识别。这两种方法在识别中广泛应用，经过实验，这两种方法并不能完美识别学生手写字符识别，主要包括以下原因，图片背景类似字符的噪声特征以及学生涂改的字符特征，容易造成字符误识别，多识别的问题；学生字符书写的不规范，有的过大，有的过小，造成特征提取网络容易丢失特征和只能提取字符...

【技术保护点】
1.一种学生手写选择题识别方法，基于残差网络Resnet结构设计，其主要特征在于，包含STN特征矫正网络部分、CNN特征提取网络部分、Super-resolution(超分辨)网络部分、Feature-squeese(特征压缩)网络部分以及Recognition(识别)网络部分。/n

【技术特征摘要】
1.一种学生手写选择题识别方法，基于残差网络Resnet结构设计，其主要特征在于，包含STN特征矫正网络部分、CNN特征提取网络部分、Super-resolution(超分辨)网络部分、Feature-squeese(特征压缩)网络部分以及Recognition(识别)网络部分。

2.如权利要求1所述的一种学生手写选择题识别方法，其特征在于，所述STN特征矫正网络部分具体描述为：使用一个简单的浅层卷积神经网络预测了20个关键点位置来约束文字的上下边缘，并通过TPS(ThinPlateSpline)方法从原始的图像中采样得到校正图像；输入学生手写选择题图片，STN网络能够根据识别网络损失反向传播更新权重的同时，通过无监督方式自动矫正图片中平移、旋转、透视畸变和弯曲的字符；在识别学生选择题过程中完成书写不规范字符矫正的第一阶段；STN网络主要包含Localize，CridCenerator和Sampler三个模块；其中Localize模块是一个自己定义的网络，它输入原始图像，输出一组变化参数，这个参数用来描述原始图像和矫正之后的图像的坐标映射关系；CridCenerator模块根据矫正图像中的坐标点和变化参数，计算出原始图像中的坐标点；Sampler模块要做的是填充矫正后的图像，根据Gridgenerator得到的一系列坐标和原始输入图像通过双线性插值实现。

3.如权利要求1所述的一种学生手写选择题识别方法，其特征在于，所述CNN特征提取网络部分具体描述为：CNN网络选取带有ResidualBlock结构的Resnet；传统的卷积层或全连接层在信息传递时，或多或少会存在信息丢失、损耗等问题；Resnet在某种程度上解决了这个问题，通过直接将输入信息绕道传到输出，保护信息的完整性，整个网络则只需要学习输入、输出差别的那一部分，简化学习目标和难度；其中Residualblock通过shortcutconnection实现，通过shortcut将这个block的输入和输出进行一个元素相加，这个简单的加法并不会给网络增加额外的参数和计算量，同时却可以大大增加模型的训练速度、提高训练效果，并且当模型的层数加深时，这个简单的结构能够很好的解决退化问题；Resnet通过Residualblock能够学习更多的图像特征信息，但是原始图像信息中包含多种复杂的噪声信息，比如学生涂改信息，背景类字符信息以及多余的题目信息；在图像特征提取网络中可以引入channelAttention和spacialAttention机制在图像特征提取阶段过滤掉一部分与识别无关的干扰噪声特征；特征的每一个通道都代表着一个专门的检测器，因此，channelAttention是关注需要识别的字符是什么；为了汇总通道特征，通过采用全局平均池化和最大池化两种方式来分别获取利用不同的信息；线性加叠全局平均池化和最大池化特征，输入神经网络，通过激活函数获取通道注意力权重系数，与图像特征相乘即可；与channelAttention不同，spacialAttention更加关注需要识别的字符在图像特征中处于什么位置；与channelAttention类似，针对每个通道特征获取平均池化和最大池化两种特征，通过融合平均池化和最大池化特征，通过激活函数获取图像特征宽高维度的注意力权重系数，与图像特征相乘即可。

4.如权利要求1所述的一种学生手写选择题识别方法，其特征在于，所述Super-resolution网络部分具体描述为：类似Unet分割网络结构，总体包含上下采样两个部分，使用了2个基于Resnet结构的超分辨基础单元的下采样部分和一个上采样部分，将共享的特...

【专利技术属性】
技术研发人员：李哲，闫琦，陈家海，叶家鸣，吴波，
申请(专利权)人：安徽七天教育科技有限公司，
类型：发明
国别省市：安徽;34

全部详细技术资料下载我是这个专利的主人