基于深度学习的主观题智能阅卷方法、系统及存储介质技术方案

技术编号:19343429 阅读:337 留言:0更新日期:2018-11-07 14:22
本发明专利技术公开了基于深度学习的主观题智能阅卷方法、系统及存储介质,包括:获取答题卡的图像;对所获取的图像进行预处理;利用OpenCV的图像分割处理对答题卡图像进行切分,切分为客观题的答题区域和主观题的答题区域;然后,采用OMR方式对客观题的答题区域进行识别;采用OCR方式对主观题的答题区域进行识别;将客观题和主观题的标准答案均录入到数据库中;所述主观题,包括:设有标准答案的主观题和没有标准答案的主观题;依次统计出客观题和主观题的分值。如果在阅卷过程中发现异常分值的试卷,则需要人工评阅干预,实现对异常试卷的纠偏处理。

Intelligent marking method, system and storage medium for subjective questions based on deep learning

The invention discloses an intelligent marking method, system and storage medium for subjective questions based on in-depth learning, including acquiring the image of the answer card, preprocessing the acquired image, segmenting the answer card image by using OpenCV image segmentation processing, and dividing it into the answer area of objective questions and the answer area of subjective questions. Then, the OMR method is used to identify the answer area of objective questions; OCR method is used to identify the answer area of subjective questions; the standard answers of both objective and subjective questions are input into the database; the subjective questions include: the subjective subjects with standard answers and the subjective subjects without standard answers; and the statistics are carried out sequentially. The score of objective and subjective questions. If abnormal scores are found in the marking process, manual evaluation intervention is needed to correct the deviation of abnormal papers.

【技术实现步骤摘要】
基于深度学习的主观题智能阅卷方法、系统及存储介质
本专利技术涉及计算机辅助阅卷领域,尤其涉及基于深度学习的主观题智能阅卷方法、系统及存储介质。
技术介绍
近年来,答题卡识别系统以及被社会熟知多年,一直在发展进步,随着大数据时代和云计算的到来,网上阅卷也根据需求逐渐改进和完善。目前主要包括传统的光学字符识别OCR(OpticalCharacterRecognition)和光学标记识别OMR(OpticalMarkRecognition),它们是目前解决录入数据信息最有效的良好总手段,通过光学成像的方法,将图像中的数据信息输入到计算机中,并对图像中的信息进行有效识的识别过程。OCR(OpticalCharacterRecognition)方法:首先通过采集工具将待处理的信息或其他文档扫描录入;然后在此基础之上进行一定的图像处理;其次,根据相应的字符特征进行相应的识别;最后,生成计算机系统可以识别和处理的信息。在整个过程中,图像划分是一个关键的技术,文字识别及处理是该技术主要的应用对象。其优点是,在进行数据录入的时候,OCR被当作首选方案,OCR亦随着其应用范围的越来越广和计算机技术的快速发展越来越成熟。但是,虽然其在该领域有着广泛的应用,但其字符特征抽取步骤却很耗时,对于实时性要求高的场景来说,很难满足用户的实时性需求。OMR(OpticalMarkRecognition)方法:标记的识别是通过光学扫描的方式实现的,该技术要求标记必须以一定的形式呈现;然后,通过一系列的模/数转换将其所需表达的数据生成得到计算机系统可识别和处理的信息。在此流程中精确迅速的录入信息是其鲜明的特点。同时,OMR在实际应用中也有一些限制,信息卡上的“涂点”如果与电眼没有完全对齐的话,不能精确的识别,即在倾斜信息卡时不能精确的识别;折皱的信息卡不能识别;低印刷质量的纸张以及纸张本身质量不高的信息卡也不能识别;一定要按照规范填涂标记,否则识别效果会受到很大的影响。故在实际应用环境下,信息卡在扫描仪扫描成像,有倾斜时会出现识别出错的情况。
技术实现思路
针对现有技术中存在的不足,本专利技术提供了基于深度学习的主观题智能阅卷方法、系统及存储介质,依托互联网和云计算技术,通过大数据分析,为学校用户提供更加真实的考试分析数据、为学生家庭用户提供更具有参考价值的个性化考试分析报告,最终达到提高学生学业水平、减轻教师负担、提高教师学生教与学效率。作为本专利技术的第一方面,提供了基于深度学习的主观题智能阅卷方法;基于深度学习的主观题智能阅卷方法,包括:步骤(1):获取答题卡的图像;步骤(2):对所获取的图像进行预处理;利用OpenCV的图像分割处理对答题卡图像进行切分,切分为客观题的答题区域和主观题的答题区域;然后,采用OMR方式对客观题的答题区域进行识别;采用OCR方式对主观题的答题区域进行识别;步骤(3):将客观题和主观题的标准答案均录入到数据库中;所述主观题,包括:设有标准答案的主观题和没有标准答案的主观题;针对客观题,利用客观题的答题内容与客观题标准答案的匹配结果,实现对客观题的评阅,统计出客观题的分值;针对设有标准答案的主观题,利用OCR文字识别方法对图像中的文字进行识别,利用关键词匹配方式将答题区域的文字与标准答案进行匹配,实现对设有标准答案的主观题的评阅,统计出设有标准答案的主观题的分值;针对没有标准答案的主观题,先通过人工设置试卷特征,再通过深度学习训练好一个卷积神经网络模型,利用训练好的卷积神经网络模型,实现对没有标准答案的主观题的评阅,统计出没有标准答案的主观题的分值范围;步骤(4):如果在阅卷过程中发现异常分值的试卷,则需要人工评阅干预,实现对异常试卷的纠偏处理。作为本专利技术的进一步改进,所述步骤(1)的答题卡为通用答题卡或自制的统一模板答题卡;获取答题卡的图像的方式为扫描或拍照。作为本专利技术的进一步改进,所述步骤(2)的采用OMR方式对客观题的答题区域进行识别,包括:步骤(201):对客观题的答题区域进行灰度和二值化处理;步骤(202):对二值化处理的结果,采用双边滤波算法进行平滑处理;步骤(203):对经过平滑处理的图像,进行图像位置矫正处理。作为本专利技术的进一步改进,所述步骤(2)的采用OCR方式对主观题的答题区域进行识别,包括:步骤(211):对主观题的答题区域进行灰度和二值化处理;步骤(212):对二值化处理结果进行图像位置矫正处理。所述图像位置矫正处理:将经过平滑处理的图像进行投影,经过平滑处理的图像的边缘位置标记会在所投影的图像上生成相应的标记,根据标记确定待矫正图像的位置,根据待矫正图像边缘与标准水平方向或标准垂直方向相差的角度,将待矫正图像的位置进行旋转实现图像矫正。作为本专利技术的进一步改进,所述步骤(3)的针对设有标准答案的主观题,利用关键词匹配方式将答题区域的内容与标准答案进行匹配,实现对设有标准答案的主观题的评阅,统计出设有标准答案的主观题的分值,是指:步骤(301):针对主观题标准答案,利用词库生成算法对长字符串进行切分处理,切分成若干个短字符串,然后,再将短字符串进行分割,生成标准词库;所述长字符串是指字符串长度超过设定阈值的字符串;所述短字符串是指字符串长度不超过设定阈值的字符串;步骤(302):针对答题区域的内容,首先去除空格和去除空行,然后,再以标点符号为依据,实现分句处理;步骤(303):对步骤(302)得到的分句处理结果,采用正向最大分词算法,将待分析的句子与专业名词库进行匹配,得到第一分词结果;然后再将与专业名词库匹配失败的内容与普通词典库进行匹配,得到第二分词结果;第一分词结果和第二分词结果合并为总的分词结果;步骤(304):关键词提取:将提取的关键词与标准词库进行匹配;计算匹配相似度;若匹配相似度大于设定阈值,则匹配成功;否则匹配失败,根据匹配结果,计算主观题答题区域的得分。作为本专利技术的进一步改进,所述步骤(301)的具体步骤为:步骤(3011):针对标准答案,把长字符串分解成若干短字符串;步骤(3012):将标准答案依据单字字典,将得到的短字符串分割为单个的词序列;步骤(3013):若有新的标准答案录入,则返回步骤(3011),否则,输出标准词库。作为本专利技术的进一步改进,所述步骤(302)的具体步骤为:步骤(3021):判断待处理的字符串是否为空,如果字符串不为空,跳转到步骤(3022);如果为空,直接结束;步骤(3022):提取字符串里最左边的一个字符,判断其是否为标点符号字符,如果不是跳转到步骤(3023);如果是,跳转到步骤(3024);步骤(3023):遍历下一个字符是否为标点符号字符,如果是,跳转到步骤(3024);如果不是,重复执行步骤(3023);步骤(3024):把当前字符串里的标点符号删除,将被删除的标点符号前面的字符串输出到指定数组,索引值加1,然后跳转到步骤(3021)。作为本专利技术的进一步改进,所述步骤(303)的具体步骤为:步骤(3031):获取专业名词库中最长词的长度,设为n;步骤(3032):从步骤(302)得到的分句处理结果中的第一个字开始,从左到右提取n个字;步骤(3033):将提取的n个字,在专业名词库中进行匹配,若匹配成功,就将提取的n个字从分句处理结果本文档来自技高网
...

【技术保护点】
1.基于深度学习的主观题智能阅卷方法,其特征是,包括:步骤(1):获取答题卡的图像;步骤(2):对所获取的图像进行预处理;利用OpenCV的图像分割处理对答题卡图像进行切分,切分为客观题的答题区域和主观题的答题区域;然后,采用OMR方式对客观题的答题区域进行识别;采用OCR方式对主观题的答题区域进行识别;步骤(3):将客观题和主观题的标准答案均录入到数据库中;所述主观题,包括:设有标准答案的主观题和没有标准答案的主观题;针对客观题,利用客观题的答题内容与客观题标准答案的匹配结果,实现对客观题的评阅,统计出客观题的分值;针对设有标准答案的主观题,利用OCR文字识别方法对图像中的文字进行识别,利用关键词匹配方式将答题区域的文字与标准答案进行匹配,实现对设有标准答案的主观题的评阅,统计出设有标准答案的主观题的分值;针对没有标准答案的主观题,先通过人工设置试卷特征,再通过深度学习训练好一个卷积神经网络模型,利用训练好的卷积神经网络模型,实现对没有标准答案的主观题的评阅,统计出没有标准答案的主观题的分值范围;步骤(4):如果在阅卷过程中发现异常分值的试卷,则需要人工评阅干预,实现对异常试卷的纠偏处理。...

【技术特征摘要】
1.基于深度学习的主观题智能阅卷方法,其特征是,包括:步骤(1):获取答题卡的图像;步骤(2):对所获取的图像进行预处理;利用OpenCV的图像分割处理对答题卡图像进行切分,切分为客观题的答题区域和主观题的答题区域;然后,采用OMR方式对客观题的答题区域进行识别;采用OCR方式对主观题的答题区域进行识别;步骤(3):将客观题和主观题的标准答案均录入到数据库中;所述主观题,包括:设有标准答案的主观题和没有标准答案的主观题;针对客观题,利用客观题的答题内容与客观题标准答案的匹配结果,实现对客观题的评阅,统计出客观题的分值;针对设有标准答案的主观题,利用OCR文字识别方法对图像中的文字进行识别,利用关键词匹配方式将答题区域的文字与标准答案进行匹配,实现对设有标准答案的主观题的评阅,统计出设有标准答案的主观题的分值;针对没有标准答案的主观题,先通过人工设置试卷特征,再通过深度学习训练好一个卷积神经网络模型,利用训练好的卷积神经网络模型,实现对没有标准答案的主观题的评阅,统计出没有标准答案的主观题的分值范围;步骤(4):如果在阅卷过程中发现异常分值的试卷,则需要人工评阅干预,实现对异常试卷的纠偏处理。2.如权利要求1所述的基于深度学习的主观题智能阅卷方法,其特征是,所述步骤(3)的针对设有标准答案的主观题,利用关键词匹配方式将答题区域的内容与标准答案进行匹配,实现对设有标准答案的主观题的评阅,统计出设有标准答案的主观题的分值,是指:步骤(301):针对主观题标准答案,利用词库生成算法对长字符串进行切分处理,切分成若干个短字符串,然后,再将短字符串进行分割,生成标准词库;所述长字符串是指字符串长度超过设定阈值的字符串;所述短字符串是指字符串长度不超过设定阈值的字符串;步骤(302):针对答题区域的内容,首先去除空格和去除空行,然后,再以标点符号为依据,实现分句处理;步骤(303):对步骤(302)得到的分句处理结果,采用正向最大分词算法,将待分析的句子与专业名词库进行匹配,得到第一分词结果;然后再将与专业名词库匹配失败的内容与普通词典库进行匹配,得到第二分词结果;第一分词结果和第二分词结果合并为总的分词结果;步骤(304):关键词提取:将提取的关键词与标准词库进行匹配;计算匹配相似度;若匹配相似度大于设定阈值,则匹配成功;否则匹配失败,根据匹配结果,计算主观题答题区域的得分。3.如权利要求2所述的基于深度学习的主观题智能阅卷方法,其特征是,所述步骤(301)的具体步骤为:步骤(3011):针对标准答案,把长字符串分解成若干短字符串;步骤(3012):将标准答案依据单字字典,将得到的短字符串分割为单个的词序列;步骤(3013):若有新的标准答案录入,则返回步骤(3011),否则,输出标准词库。4.如权利要求2所述的基于深度学习的主观题智能阅卷方法,其特征是,所述步骤(302)的具体步骤为:步骤(3021):判断待处理的字符串是否为空,如果字符串不为空,跳转到步骤(3022);如果为空,直接结束;步骤(3022):提取字符串里最左边的一个字符,判断其是否为标点符号字符,如果不是跳转到步骤(3023);如果是,跳转到步骤(3024);步骤(3023):遍历下一个字符是否为标点符号字符,如果是,跳转到步骤(3024);如果不是,重复执行步骤(3023);步骤(3024):把当前字符串里的标点符号删除,将被删除的标点符号前面的字符串输出到指定数组,索引值加1,然后跳转到步骤(3021)。5.如权利要求2所述的基于深度学习的主观题智能阅卷方法,其特征是,所述步骤(303)的具体步骤为:步骤(3031):获取专业名词库中最长词的长度,设为n;步骤(3032):从步骤(302)得到的分句处理结果中的第一个字开始,从左到右提取n个字;步骤(3033):将提取的n个字,在专业名词库中进行匹配,若匹配成功,就将提取的n个字从分句处理结果中分割出来;步骤(3034):若匹配不成功,就将最后面的一个字去...

【专利技术属性】
技术研发人员:吕蕾胡克军刘一良刘弘
申请(专利权)人:山东师范大学
类型:发明
国别省市:山东,37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1