基于深度学习的试卷卷头学生信息自动检测方法技术

技术编号:29157773 阅读:14 留言:0更新日期:2021-07-06 22:57
本发明专利技术公开了一种基于深度学习的试卷卷头学生信息自动检测方法,包括以下步骤:S1、数据获取,使用扫描仪对多张学生试卷的正面进行扫描得到多张试卷全图;S2、标注数据,对试卷卷头图像进行人工标注获取学生信息的检测框,并划分训练集和测试集;S3、通过合成数据扩充数据量;S4、构造文本检测器,使用卷积神经网络构造文本检测器,文本检测器包括特征提取网络、候选文本区域生成网络、区域特征采样模块以及文本定位网络,并且对各组成网络设计不同的损失函数;S5、训练文本检测器;S6、测试,将测试数据输入训练好的文本检测器进行检测。本发明专利技术方法能够检测出试卷卷头的印刷体待填项目和手写体的学生信息,具有准确率高的特点。

【技术实现步骤摘要】
基于深度学习的试卷卷头学生信息自动检测方法
本专利技术属于计算机视觉
,具体涉及一种基于深度学习的试卷卷头学生信息自动检测方法。
技术介绍
计算机视觉是人工智能领域的一个重要研究方向,它在自动驾驶、智慧城市、人机交互等方面有着重要应用。其中,文字检测是计算机视觉领域的一个重要分支,在近几年有着飞速的发展。文字检测在教育领域有着相关的应用。教师在教学实践中需要给学生的试卷进行评分,后续工作通常包含将试卷的学生信息和分数录入电子系统中,方便进一步地统计考试情况和改进教学方案。但在实际的工作过程中,如果一名老师所带的班级和科目很多,那么过多的试卷信息录入工作无疑会增加教师的额外精力。因此,寻取一种自动且准确的学生信息录入方法十分有意义。近年来,深度神经网络的研究进展促进了目标检测方向的快速发展,越来越多的检测算法被提出。
技术实现思路
本专利技术的主要目的在于克服现有技术的缺点与不足,提出一种基于深度学习的试卷卷头学生信息自动检测方法,能够检测出试卷卷头的印刷体待填项目和手写体的学生信息,具有准确率高的特点。为了达到上述目的,本专利技术采用以下技术方案:基于深度学习的试卷卷头学生信息自动检测方法,包括以下步骤:S1、数据获取,使用扫描仪对多张学生试卷的正面进行扫描得到多张试卷全图,对试卷图像的卷头位置进行裁剪,得到多张试卷卷头图像;S2、标注数据,对试卷卷头图像进行人工标注获取学生信息的检测框,并划分训练集和测试集;S3、数据合成,通过合成数据扩充数据量;S4、构造文本检测器,使用卷积神经网络构造文本检测器,文本检测器包括特征提取网络、候选文本区域生成网络、区域特征采样模块以及文本定位网络,并且对各组成网络设计不同的损失函数;S5、训练文本检测器,采用预训练模型,设置训练相关参数,将带标注的数据输入到文本检测器中训练;S6、将测试数据输入训练好的文本检测器进行检测,得到学生信息的检测结果和概率。进一步的,所述步骤S2具体包括:采用标注软件,人工标定学生信息的水平矩形框,包括位置和类别的标定;将水平矩形框左上角的坐标以及宽高数据记录于文件中;将图像随机划分为训练集和测试集。进一步的,所述步骤S3具体包括:S31、对人工标注的真实数据进行数据统计分析,包括试卷卷头图像的宽高比、标注框的宽高比和大小以及标注框之间的距离;S32、根据数据统计结果,设置生成图像的宽高、文本间距,自动化生成包含待填项目但还没有填写学生信息的试卷卷头图像,同时存储待填项目类别和坐标;S33、在互联网上爬取学生信息的语料,包括学生姓名、班级以及学校,过滤长度大于10的文字信息,据信息所属的项目将其存入不同的json文件中,则每个json文件构成一个语料库,包含不同项目的学生信息;S34、下载中文手写数据集,作为后续粘贴手写体单字图像的图像库;S35、对试卷卷头的每一个待填项目,分别从对应的项目语料库中随机选取一条信息,对该条信息的每一个文字,图像库中都有与之对应的不同人手写的一组单字图像,从这组对应的图像中随机挑选一张,将该单字图像有序粘贴到试卷卷头图像中的待填项目右侧;S36、对试卷卷头图像进行仿射变换、添加椒盐噪声、旋转以及高斯模糊;S37、基于步骤S31至S36合成多张图像,与人工标注的真实数据合并构成训练集。进一步的,所述特征提取网络具体为:特征提取网络采用残差神经网络中的ResNet50和双向特征金字塔网络BiFPN,所述ResNet50通过捷径连接的方式既提高了特征提取能力,又缓解了网络退化问题;所述BiFPN对提取到的不同层的特征同时进行自底向上和自顶向下的融合,最终得到多通道特征图F1。进一步的,所述候选文本区域生成网络具体为:将多通道特征图F1输入到候选文本区域生成网络,得到候选文本区域R;所述候选文本区域生成网络包括二分类网络以及检测框回归网络;在二分类网络中,将F1输入卷积核大小为3*3,步长为1的卷积层256C中,输出256个通道的特征图F2;接着将特征图F2输入卷积层2kC中,卷积核大小为1*1,步长为1,输出通道数为2k;在检测框回归网络中,将F1输入卷积层256C中进行特征提取得到特征图F2后输入到卷积层2kC后得到4k个坐标回归结果;所述特征图F1每个像素点都预定义了k个不同尺寸和比例的锚点anchor,基于anchor回归可得到映射回原图的k个候选区域,每个候选区域包含2个分类置信度,对应二分类网络的2k个输出。进一步的,所述区域特征采样模块具体为:给定整图的特征图F1和候选文本区域R,将F1的对应区域划分m*m个部分,对每个部分采样一个特征向量得到m*m尺寸的局部区域特征图F3。进一步的,所述文本定位网络具体为:将所述局部区域特征图F3输入到文本定位网络,得到各个区域属于文本的概率;所述文本定位网络包括两分支,分割分支以及检测框回归和分类分支;所述检测框回归和分类分支包含检测框回归分支和检测框分类分支;所述分割分支中,将F3输入到全卷积网络后将得到输入图像的文本分割图Mask,在像素层面区分文本像素和背景像素;所述检测框回归分支中,将F3输入到全连接层中,对候选文本区域R进行回归,得到文本的检测框;所述检测框分类分支中,将F3输入到全连接层中,对检测框内部的区域进行分类,输出该区域属于文本的概率。进一步的,所述损失函数具体为:对于文本定位网络的分割分支,采用Diceloss,具体为:其中,X为预测的分割图,Y为真实标注的分割图;对于文本定位网络以及候选文本区域生成网络的检测分支,采用IoUloss,具体为:Lbox=1-IoU其中,D为检测框,G为真实标注框;对于文本定位网络以及候选文本区域生成网络的分类分支,采用二元交叉熵损失函数,具体为:其中,p表示预测概率,表示真实类别;最终的损失函数定义为:L=Lmask+Lbox+Lcls。进一步的,所述步骤S5具体为:采用Imagenet分类任务训练的模型作为特征提取网络的预训练模型,进行参数初始化;设置训练相关的参数,采用随机梯度下降方法更新模型参数,设置初始学习率为lr,权重衰减为weight_decay,每一次批量训练的图片数目为batch_size,迭代次数为iters,学习率更新策略为step,更新系数为λ,更新步长为stepsize;在候选文本区域生成网络中,设置anchor的大小为322、642、1282、2562以及5122,宽高比为1:1、1:2以及2:1;训练文本检测器,分批读取训练集中的图片以及标签,将图片输入文本检测器得到预测结果,计算预测结果和标签产生的损失,使用梯度下降法降低损失,对特征提取网络、候选文本区域生成网络本文档来自技高网...

【技术保护点】
1.基于深度学习的试卷卷头学生信息自动检测方法,其特征在于,包括以下步骤:/nS1、数据获取,使用扫描仪对多张学生试卷的正面进行扫描得到多张试卷全图,对试卷图像的卷头位置进行裁剪,得到多张试卷卷头图像;/nS2、标注数据,对试卷卷头图像进行人工标注获取学生信息的检测框,并划分训练集和测试集;/nS3、数据合成,通过合成数据扩充数据量;/nS4、构造文本检测器,使用卷积神经网络构造文本检测器,文本检测器包括特征提取网络、候选文本区域生成网络、区域特征采样模块以及文本定位网络,并且对各组成网络设计不同的损失函数;/nS5、训练文本检测器,采用预训练模型,设置训练相关参数,将带标注的数据输入到文本检测器中训练;/nS6、将测试数据输入训练好的文本检测器进行检测,得到学生信息的检测结果和概率。/n

【技术特征摘要】
1.基于深度学习的试卷卷头学生信息自动检测方法,其特征在于,包括以下步骤:
S1、数据获取,使用扫描仪对多张学生试卷的正面进行扫描得到多张试卷全图,对试卷图像的卷头位置进行裁剪,得到多张试卷卷头图像;
S2、标注数据,对试卷卷头图像进行人工标注获取学生信息的检测框,并划分训练集和测试集;
S3、数据合成,通过合成数据扩充数据量;
S4、构造文本检测器,使用卷积神经网络构造文本检测器,文本检测器包括特征提取网络、候选文本区域生成网络、区域特征采样模块以及文本定位网络,并且对各组成网络设计不同的损失函数;
S5、训练文本检测器,采用预训练模型,设置训练相关参数,将带标注的数据输入到文本检测器中训练;
S6、将测试数据输入训练好的文本检测器进行检测,得到学生信息的检测结果和概率。


2.根据权利要求1所述的基于深度学习的试卷卷头学生信息自动检测方法,其特征在于,所述步骤S2具体包括:
采用标注软件,人工标定学生信息的水平矩形框,包括位置和类别的标定;
将水平矩形框左上角的坐标以及宽高数据记录于文件中;
将图像随机划分为训练集和测试集。


3.根据权利要求1所述的基于深度学习的试卷卷头学生信息自动检测方法,其特征在于,所述步骤S3具体包括:
S31、对人工标注的真实数据进行数据统计分析,包括试卷卷头图像的宽高比、标注框的宽高比和大小以及标注框之间的距离;
S32、根据数据统计结果,设置生成图像的宽高、文本间距,自动化生成包含待填项目但还没有填写学生信息的试卷卷头图像,同时存储待填项目类别和坐标;
S33、在互联网上爬取学生信息的语料,包括学生姓名、班级以及学校,过滤长度大于10的文字信息,据信息所属的项目将其存入不同的json文件中,则每个json文件构成一个语料库,包含不同项目的学生信息;
S34、下载中文手写数据集,作为后续粘贴手写体单字图像的图像库;
S35、对试卷卷头的每一个待填项目,分别从对应的项目语料库中随机选取一条信息,对该条信息的每一个文字,图像库中都有与之对应的不同人手写的一组单字图像,从这组对应的图像中随机挑选一张,将该单字图像有序粘贴到试卷卷头图像中的待填项目右侧;
S36、对试卷卷头图像进行仿射变换、添加椒盐噪声、旋转以及高斯模糊;
S37、基于步骤S31至S36合成多张图像,与人工标注的真实数据合并构成训练集。


4.根据权利要求1所述的基于深度学习的试卷卷头学生信息自动检测方法,其特征在于,所述特征提取网络具体为:
特征提取网络采用残差神经网络中的ResNet50和双向特征金字塔网络BiFPN,所述ResNet50通过捷径连接的方式既提高了特征提取能力,又缓解了网络退化问题;
所述BiFPN对提取到的不同层的特征同时进行自底向上和自顶向下的融合,最终得到多通道特征图F1。


5.根据权利要求4所述的基于深度学习的试卷卷头学生信息自动检测方法,其特征在于,所述候选文本区域生成网络具体为:
将多通道特征图F1输入到候选文本区域生成网络,得到候选文本区域R;
所述候选文本区域生成网络包括二分类网络以及检测框回归网络;
在二分类网络中,将F1输入卷积核大小为3*3,步长为1的卷积层256C中,输出256个通道的特征图F2;接着将特征图F2输入卷积层2kC中,卷积核大小为1*1,步长为1,输出通道数为2k;
在检测框回归网络中,将F1输入卷积层256C中进行特征提取得到特征图F2后输入到卷积层2kC后得到4k个坐标回归结果;...

【专利技术属性】
技术研发人员:陈向乐黄双萍
申请(专利权)人:华南理工大学
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1