一种识别问卷批改得分的方法技术

技术编号:17913118 阅读:36 留言:0更新日期:2018-05-10 18:40
本发明专利技术公开了一种自动识别问卷批改得分的方法,包括:1.基于设计的双框识别框模式建立问卷批改得分数据集;2.针对问卷批改得分数据集进行数据清洗和数据增强,以使模型能够解决教师手写习惯差异,不同学校的复印扫描质量不一实际问题;3.构建问卷批改得分提升模型以解决小数量实际样本不满足模型容量问题及应用中的样本不均衡问题;4.构建预测模型,根据所构建的数据集训练模型并优化得到最终预测模型,部署应用于识别问卷批改得分,得到识别结果;5.根据实际应用的反馈数据再次通过提升模型不断提升模型预测的准确率。本发明专利技术应用于问卷批改得分的系统中,能够针对复杂多变的问卷批改得分进行高准确率的识别,具有较强的实用价值。

【技术实现步骤摘要】
一种识别问卷批改得分的方法
本专利技术涉及教育信息化领域,具体是一种自动识别问卷批改得分的方法。
技术介绍
随着技术的不断发展,互联网在微观领域已经渗透到日常生活的各个方面,而在宏观领域,更是引发了技术产业创新。借助于互联网平台和信息技术的发展,教育行业也面临着巨大的改革和挑战。电子化教学作为互联网和信息技术在教育行业的一个切入点,近年来发生着巨大的变化。电子化教学包括教学资源的数字信息化和教学工具的信息化,教学资源的数字信息化包括网络课程,声像资料,电子教案,数字化素材库等。而教学工具的信息化则是帮助学校和老师提供信息化的平台,更加简单方便的管理学生。本专利技术应用于教学工具信息化的一个环节,旨在帮助老师从试卷批改结果的记录中解放出来,能够自动识别教师在试卷中的批改得分,从而实现学生成绩的自动化管理。当前,问卷批改结果的电子化处理,主要是对纸张问卷(学生答题结果和教师批改后)进行扫描,并对教师的批改结果(如分数)进行电子化识别。其中批改分数的自动识别,是问卷批改结果的电子化识别中最重要的一点。常用的批改结果得分的识别,主要有两种方式。模式1:得分条方式。如下图所示,专用的得分纸张,一个水平条格中列出某题目所有得分的可能选项,教师通过在对应格子选项上进行标注(通过竖线或其他符号标记)代表对应得分,后续扫描图像后,识别程序识别对应位置被标注,从而映射生成其代表的得分。该模式在现有业务中大量使用,但问题也较多。首先需要设定另外的得分记录区,且所有得分选项必须列出来,实际难免无法覆盖所有得分情况(如0.5分差往往很难记录)。同时,操作体验也差,如果批改人误标错了分,修改时将很麻烦(原位置标记往往无法清除干净),从而导致后续识别错误,这种方式实施简单但在实际使用中极不灵活。模式2:手写体识别。这种方法较新,教师在试卷上手写得分数字,扫描问卷图像后进行手写数字识别,得到具体得分。这种方法,使用图像处理与模式识别(如手写体识别),精度良好,相对模式1也更灵活。但实际中,存在大量现实的限制。因为这种方法需要大量标注好的用户批改数字进行事先训练,但实际业务中前期对用户数据进行标注耗用人工代价很大。而且在教育领域,大量教师由于个人成长习惯问题,数字手写习惯差异很大(甚至不同地区也有不同模式),实际也不可能事先采集每个人的大批量批改数据。这样,最终导致识别程序在对新学校/老师服务的前期,面对新老师的得分识别,效果会比较差。虽然后期通过不断迭代优化可以达到较高的精度,但是前期的低精度导致老师们前期使用中的额外投入和顾虑,降低了可用性,所以该模式虽然方便,但是实际应用的学习并不多。本专利技术针对上述识别方法的缺陷(手写体识别模式下前期训练数据不足时,精度过低的问题),结合实际教育业务的特点,进行了新的改进,其优点在于能够利用较小训练样本在前期能够得到较高的手写体批改数字的识别准确率。
技术实现思路
本专利技术的目的在于针对现有问卷批改得分自动识别方法的不足,提供一种灵活方便,准确率高的问卷批改得分的识别方法。为实现上述目的,本专利技术提供如下技术方案:一种识别问卷批改得分的方法,其特征在于,包括以下步骤:1)设计一种双线识别框,并根据所设计的双线识别框,建立问卷批改得分数据集,其来源包括实际扫描生成的数据集和机器模拟合成的数据集;目前开源的数据集有MNIST数据库,由于中西方书写习惯存在显著差异,因此除此之外还需要模拟教师批改问卷得分建立部分自己的数据集,而实际从试卷扫描到图片处理进而标记整理出数据集是比较耗时耗力的,因此利用机器在小数量数据集上构建符合模型容量的数据集是非常有必要的;2)对上一步建立的数据集做简单数据清洗,剔除不可用数据,对自己建立的数据集做数据加强,包括对图片进行膨化处理,液化处理,二值化处理,仿射变换,加入随机噪声等;数据加强操作可以使模型更加适应实际中各学校复印扫描质量的差异,教师批改问卷得分时笔触的差异,教师手写习惯不一的问题;3)构建提升模型,采用基于深度学习的生成模型解决前期构建模型时,小数量训练集在模型上的过拟合问题,根据小数量的实际样本,利用生成模型生成与实际样本同分布的其他样本共同构成训练集,用于训练模型;同时实际应用中,采集到的实际样本往往会存在样本的不平衡问题,此时提升模型可以用于解决上述问题;4)构建预测模型,确定所采用模型的基本结构,包括模型的深度,宽度,卷积层,pooling层,batchnormalization层,dropout层的堆叠结构,区别于其他模型,本专利技术首先从上述数据集中采样小数量数据集,用于模型校验,通过对模型损失,梯度和对小数量数据集的拟合程度,判断模型结构的正确性,之后将上述数据集分割为训练集和测试集,预测模型对训练集进行训练,采用测试集进行验证,利用交叉验证确定最优化学习率,正则化强度等超参数,得到最优化模型;5)模型应用后根据实际反馈结果得到更多实际样本,反复迭代替换开源数据集中的样本,逐步提升模型预测精度。作为一种优选的技术方案,在建立数据集中采用了实际数据和机器模拟数据两种方法,并且采用了包括对图像的膨化处理,液化处理,二值化处理,仿射变换,添加随机噪声等数据加强技术,使得所构建的数据集具有多样性,可以解决实际中包括书写位置偏移,书写笔触粗细不一,试卷质量差导致的扫描图像差的问题。作为一种优选的技术方案,采用了卷积神经网络对教师批改得分进行识别的方法,传统的基于图像的识别方法主要基于自定义特征,对应于得分的识别则主要考虑的是0-9这10个数字的特征,采用卷积神经网络则省去了人工自定义特征的过程,并且深层卷积网络模型识别率远高于传统模型。作为一种优选的技术方案,采用了基于深度学习的生成网络用于产生部分实验样本,提升模型初始准确率,由于人工构建数据集成本较高,而基于深度学习的生成模型则可以根据现有数据集利用随机噪声产生与原数据集同分布的图片,利用生成模型生成图片加入到初始的训练集中能够提升初始模型的识别准确率,并且能够在模型运用中解决实际应用中样本不均衡问题。与现有技术相比,本专利技术的有益效果是:本专利技术基于最新的深度学习算法对问卷批改得分进行自动识别,本专利技术具有采用小数量数据集可以得到较优的识别结果。通过设计的双框模式能够解决老师手写过大的问题,利用多种数据增强技术能够对老师书写字体大小粗细位置及不同学校扫描质量不同等问题进行自适应,泛化能力强,模型的鲁棒性较好,识别准确率较传统的识别结果也有明显的优势。该方法基于最新的深度学习模型,采用了设计的双框模式,针对较小训练样本进行建模学习抽象出各数字特征进而对现实问卷得分进行识别,本专利技术较以往的识别方法的优点在于,采用双框的设计模式避免了教师书写过大导致的从问卷扣图得到的图片数字不完整;采用了包括随机加噪,仿射变换,二值化处理等在内的多种数据增强技术,解决了实际教师书写习惯不一、问卷扫描质量差异巨大而导致的数字识别精度低的问题;基于生成模型构建符合模型容量的数据集的方法,使得基于小训练样本仍能取得较高的识别准确率;采用了最新的深度学习模型建模进行试卷得分的识别方法。本专利技术的识别结果具有较好的适应性,稳定性和高精度的特点。附图说明图1是现有技术的得分条方式的示意图;图2是本专利技术问卷批改得分自动识别的流程图;图3是本专利技术开源数本文档来自技高网
...
一种识别问卷批改得分的方法

【技术保护点】
一种识别问卷批改得分的方法,其特征在于,包括以下步骤:1)设计一种双线识别框,并根据所设计的双线识别框,建立问卷批改得分数据集,其来源包括实际扫描生成的数据集和机器模拟合成的数据集;2)对上一步建立的数据集做简单数据清洗,剔除不可用数据,对自己建立的数据集做数据加强,包括对图片进行膨化处理,液化处理,二值化处理,仿射变换,加入随机噪声等;数据加强操作可以使模型更加适应实际中各学校复印扫描质量的差异,教师批改问卷得分时笔触的差异,教师手写习惯不一的问题;3)构建提升模型,采用基于深度学习的生成模型解决前期构建模型时,小数量训练集在模型上的过拟合问题,根据小数量的实际样本,利用生成模型生成与实际样本同分布的其他样本共同构成训练集,用于训练模型;同时实际应用中,采集到的实际样本往往会存在样本的不平衡问题,此时提升模型可以用于解决上述问题;4)构建预测模型,确定所采用模型的基本结构,包括模型的深度,宽度,卷积层,pooling层,batch normalization层,dropout层的堆叠结构,区别于其他模型,本专利技术首先从上述数据集中采样小数量数据集,用于模型校验,通过对模型损失,梯度和对小数量数据集的拟合程度,判断模型结构的正确性,之后将上述数据集分割为训练集和测试集,预测模型对训练集进行训练,采用测试集进行验证,利用交叉验证确定最优化学习率,正则化强度等超参数,得到最优化模型;5)模型应用后根据实际反馈结果得到更多实际样本,反复迭代替换开源数据集中的样本,逐步提升模型预测精度。...

【技术特征摘要】
1.一种识别问卷批改得分的方法,其特征在于,包括以下步骤:1)设计一种双线识别框,并根据所设计的双线识别框,建立问卷批改得分数据集,其来源包括实际扫描生成的数据集和机器模拟合成的数据集;2)对上一步建立的数据集做简单数据清洗,剔除不可用数据,对自己建立的数据集做数据加强,包括对图片进行膨化处理,液化处理,二值化处理,仿射变换,加入随机噪声等;数据加强操作可以使模型更加适应实际中各学校复印扫描质量的差异,教师批改问卷得分时笔触的差异,教师手写习惯不一的问题;3)构建提升模型,采用基于深度学习的生成模型解决前期构建模型时,小数量训练集在模型上的过拟合问题,根据小数量的实际样本,利用生成模型生成与实际样本同分布的其他样本共同构成训练集,用于训练模型;同时实际应用中,采集到的实际样本往往会存在样本的不平衡问题,此时提升模型可以用于解决上述问题;4)构建预测模型,确定所采用模型的基本结构,包括模型的深度,宽度,卷积层,pooling层,batchnormalization层,dropout层的堆叠结构,区别于其他模型,本发明首先从上述数据集中采样小数量数据集,用于模型校验,通过对模型损失,梯度和对小数量数据集的拟合程度,判断模型结构的正确性,之后将上述数据集分割为训练集和测试集,预测模型对训练集进行训练,采用测试集进行验证,利用交...

【专利技术属性】
技术研发人员:宿玲玲马亮
申请(专利权)人:北京慧辰资道资讯股份有限公司江苏飚众教育科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1