一种学生手写选择题识别方法技术

技术编号:28038446 阅读:23 留言:0更新日期:2021-04-09 23:21
本发明专利技术公开了一种学生手写选择题识别方法,涉及文本识别领域。针对学生手写选择题图像数据,提出了基于Attention机制解决手写文本识别的方案。整体基于残差网络架构,利用STN矫正有畸变的字符图像,利用channel Attention和spacial Attention机制在图像特征中更精准定位字符位置和更精准判断要识别的字符是什么,利用Seq2Seq加Attention机制在序列特征中更精确字符识别,通过超分辨分支网络提高识别网络对模糊字符的识别率,最大程度降低背景环境等因素对字符识别的干扰,提高了手写字符识别率,为人工智能阅卷系统工程落地奠定基础。本发明专利技术主要包含以下步骤:数据预处理、网络结构设计、目标函数设计、网络输出后处理。本发明专利技术设计合理,使用方便,效果良好。

【技术实现步骤摘要】
一种学生手写选择题识别方法
本专利技术涉及深度学习OCR(光学字符识别)领域,具体涉及到一种学生手写选择题识别方法。
技术介绍
现有的学生手写选择题识别方法主要分为基于传统图像处理算法和基于深度学习方法。不同的方法都是基于提取图像中学生手写字符特征然后根据特征进行字符分类,完成识别过程。传统图像识别处理方法包括两步,字符切割及字符分类。字符切割主要包括二维直方图投影法和区域网格统计法。字符特征切割完之后就是字符识别,传统的识别算法将这一任务转换为一个分类任务。针对该任务,一系列的分类方法模型出现,主要包括:支持向量机(SVM)、K近邻算法、多层感知器(MLP)等。传统图像识别主要适用书写背景干净无噪声干扰,字符书写清晰规范的情况。针对学生选择题识别无法达到预期效果,主要原因包括字符背景复杂,多选题字符书写粘连,不能有效切割单字符,字符书写不够规范以及背景图案干扰,不能有效识别出字符。基于深度学习方法主要分为CTC(ConnectionistTemporalClassification,连接时序分类)和Seq2Seq(SequencetoSequence,序列到序列)两种形式。能够解决单字符和多字符识别问题中的对齐问题,直接实现端到端的识别。这两种方法在识别中广泛应用,经过实验,这两种方法并不能完美识别学生手写字符识别,主要包括以下原因,图片背景类似字符的噪声特征以及学生涂改的字符特征,容易造成字符误识别,多识别的问题;学生字符书写的不规范,有的过大,有的过小,造成特征提取网络容易丢失特征和只能提取字符的部分特征,影响干扰最终识别结果;由于设备扫描过程或学生误触造成的字符模糊现象,影响识别模型的判断。综上所述,对于学生选择题识别,采用现有方法并不能够完美解决。本专利技术将基于学生手写选择题上述的特性,提出一种合理高准确率的文本识别方法。
技术实现思路
本专利技术的目的在于:针对学生手写选择题识别,设计合理的方法,消除背景几何信息对字符识别的影响,消除学生书写涂改对字符识别的影响,消除学生书写不规范对字符识别的影响,消除图片字符模糊对字符识别的影响,提供一种学生手写选择题识别方法。本专利技术采用的技术方案如下:一种学生手写选择题识别方法,基于残差网络Resnet结构设计,其主要特征在于,包含STN特征矫正网络部分、CNN特征提取网络部分、Super-resolution网络部分、Feature-squeese网络部分以及Recognition网络部分。其中STN特征矫正网络部分:使用一个简单的浅层卷积神经网络预测了20个关键点位置来约束文字的上下边缘,并通过TPS(ThinPlateSpline)方法从原始的图像中采样得到校正图像。输入学生手写选择题图片,STN网络能够根据识别网络损失反向传播更新权重的同时,通过无监督方式自动矫正图片中平移,旋转,透视畸变和弯曲的字符。在识别学生选择题过程中完成书写不规范字符矫正的第一阶段。STN网络主要包含Localize,CridCenerator和Sampler三个模块。其中Localize模块是一个自己定义的网络,它输入原始图像,输出一组变化参数,这个参数用来描述原始图像和矫正之后的图像的坐标映射关系;CridCenerator模块根据矫正图像中的坐标点和变化参数,计算出原始图像中的坐标点;Sampler模块要做的是填充矫正后的图像,根据Gridgenerator得到的一系列坐标和原始输入图像通过双线性插值实现。其中CNN特征提取网络部分:CNN网络选取带有ResidualBlock结构的Resnet。传统的卷积层或全连接层在信息传递时,或多或少会存在信息丢失、损耗等问题。Resnet在某种程度上解决了这个问题,通过直接将输入信息绕道传到输出,保护信息的完整性,整个网络则只需要学习输入、输出差别的那一部分,简化学习目标和难度。其中Residualblock通过shortcutconnection实现,通过shortcut将这个block的输入和输出进行一个元素相加,这个简单的加法并不会给网络增加额外的参数和计算量,同时却可以大大增加模型的训练速度、提高训练效果,并且当模型的层数加深时,这个简单的结构能够很好的解决退化问题。其中Residualblock如图2所示,Resnet网络结构如图3所示。Resnet通过Residualblock能够学习更多的图像特征信息,但是原始图像信息中包含多种复杂的噪声信息,比如学生涂改信息,背景类字符信息以及多余的题目信息。在图像特征提取网络中可以引入channelAttention和spacialAttention机制在图像特征提取阶段过滤掉一部分与识别无关的干扰噪声特征。特征的每一个通道都代表着一个专门的检测器,因此,channelAttention是关注需要识别的字符是什么。为了汇总通道特征,通过采用全局平均池化和最大池化两种方式来分别获取利用不同的信息。线性加叠全局平均池化和最大池化特征,输入神经网络,通过激活函数获取通道注意力权重系数,与图像特征相乘即可。与channelAttention不同,spacialAttention更加关注需要识别的字符在图像特征中处于什么位置。与channelAttention类似,针对每个通道特征获取平均池化和最大池化两种特征,通过融合平均池化和最大池化特征,通过激活函数获取图像特征宽高维度的注意力权重系数,与图像特征相乘即可。其中Super-resolution网络部分:类似Unet分割网络结构,总体包含上下采样两个部分,使用了2个基于Resnet结构的超分辨基础单元的下采样部分和一个上采样部分,将共享的特征恢复成原始图像对应的超分辨图像。为了更好的训练超分辨单元、改善特征的表达,使用了如下两种特征增强的方式:高斯模糊和8倍上下采样。在训练阶段超分辨网络损失函数通过梯度反向传播优化上一阶段的CNN特征提取网络,改善模糊字符的特征提取与识别。在前向推理的过程中将不再使用超分辨网络,在模型改善图像清晰度的同时不增加模型计算的参数量和复杂度。其中超分辨网络结构如图4所示。其中Feature-squeese网络部分:通过1x1卷积降维和Reshape的方式,从CNN特征提取模块输出的特征中,获取输入到识别模块的1维向量。使用双向LSTM能够学习到图像特征序列的关联信息,通过学习的序列关联信息可以一定的区分识别图片中的前背景信息,为下一阶段识别解码使用Attention机制提供上下文信息向量。其中Recognition网络部分:在识别手写选择题的时候,希望识别网络能够更加关注图片中手写字符的特征而尽可能的忽略学生涂改的错误答案和复杂的背景中类似字符的图像特征。为了解决这一问题引入Attention识别机制。将Feature-squeese网络中的Bi-LSTM网络作为encoder,Recognition网络网络中的Bi-LSTM网络作为decoder,通过计算encoder与decoder状态之间关联性的权重,得到Attention分布系数,从而输出对于当前位置本文档来自技高网
...

【技术保护点】
1.一种学生手写选择题识别方法,基于残差网络Resnet结构设计,其主要特征在于,包含STN特征矫正网络部分、CNN特征提取网络部分、Super-resolution(超分辨)网络部分、Feature-squeese(特征压缩)网络部分以及Recognition(识别)网络部分。/n

【技术特征摘要】
1.一种学生手写选择题识别方法,基于残差网络Resnet结构设计,其主要特征在于,包含STN特征矫正网络部分、CNN特征提取网络部分、Super-resolution(超分辨)网络部分、Feature-squeese(特征压缩)网络部分以及Recognition(识别)网络部分。


2.如权利要求1所述的一种学生手写选择题识别方法,其特征在于,所述STN特征矫正网络部分具体描述为:使用一个简单的浅层卷积神经网络预测了20个关键点位置来约束文字的上下边缘,并通过TPS(ThinPlateSpline)方法从原始的图像中采样得到校正图像;输入学生手写选择题图片,STN网络能够根据识别网络损失反向传播更新权重的同时,通过无监督方式自动矫正图片中平移、旋转、透视畸变和弯曲的字符;在识别学生选择题过程中完成书写不规范字符矫正的第一阶段;STN网络主要包含Localize,CridCenerator和Sampler三个模块;其中Localize模块是一个自己定义的网络,它输入原始图像,输出一组变化参数,这个参数用来描述原始图像和矫正之后的图像的坐标映射关系;CridCenerator模块根据矫正图像中的坐标点和变化参数,计算出原始图像中的坐标点;Sampler模块要做的是填充矫正后的图像,根据Gridgenerator得到的一系列坐标和原始输入图像通过双线性插值实现。


3.如权利要求1所述的一种学生手写选择题识别方法,其特征在于,所述CNN特征提取网络部分具体描述为:CNN网络选取带有ResidualBlock结构的Resnet;传统的卷积层或全连接层在信息传递时,或多或少会存在信息丢失、损耗等问题;Resnet在某种程度上解决了这个问题,通过直接将输入信息绕道传到输出,保护信息的完整性,整个网络则只需要学习输入、输出差别的那一部分,简化学习目标和难度;其中Residualblock通过shortcutconnection实现,通过shortcut将这个block的输入和输出进行一个元素相加,这个简单的加法并不会给网络增加额外的参数和计算量,同时却可以大大增加模型的训练速度、提高训练效果,并且当模型的层数加深时,这个简单的结构能够很好的解决退化问题;Resnet通过Residualblock能够学习更多的图像特征信息,但是原始图像信息中包含多种复杂的噪声信息,比如学生涂改信息,背景类字符信息以及多余的题目信息;在图像特征提取网络中可以引入channelAttention和spacialAttention机制在图像特征提取阶段过滤掉一部分与识别无关的干扰噪声特征;特征的每一个通道都代表着一个专门的检测器,因此,channelAttention是关注需要识别的字符是什么;为了汇总通道特征,通过采用全局平均池化和最大池化两种方式来分别获取利用不同的信息;线性加叠全局平均池化和最大池化特征,输入神经网络,通过激活函数获取通道注意力权重系数,与图像特征相乘即可;与channelAttention不同,spacialAttention更加关注需要识别的字符在图像特征中处于什么位置;与channelAttention类似,针对每个通道特征获取平均池化和最大池化两种特征,通过融合平均池化和最大池化特征,通过激活函数获取图像特征宽高维度的注意力权重系数,与图像特征相乘即可。


4.如权利要求1所述的一种学生手写选择题识别方法,其特征在于,所述Super-resolution网络部分具体描述为:类似Unet分割网络结构,总体包含上下采样两个部分,使用了2个基于Resnet结构的超分辨基础单元的下采样部分和一个上采样部分,将共享的特...

【专利技术属性】
技术研发人员:李哲闫琦陈家海叶家鸣吴波
申请(专利权)人:安徽七天教育科技有限公司
类型:发明
国别省市:安徽;34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1