一种针对图像识别的英语作文评分方法技术

技术编号:27879207 阅读:20 留言:0更新日期:2021-03-31 01:08
本发明专利技术公开一种针对图像识别的英语作文评分方法,涉及文本评分领域。针对试卷扫描识别的英语作文评分问题,提出利用多个模块提取特征,利用xgboost模型将特征映射为最终评分的解决方案。本方案主要包含以下模块:基础分数模块、语义分数模块、主题分数模块、书写分数模块、集成分数模块。方案中的各模块分别利用传统nlp处理方法、深度学习、机器学习等多种方式提取特征,能透彻分析学生作文,综合各特征权重优化作文评分的准确率。

【技术实现步骤摘要】
一种针对图像识别的英语作文评分方法
本专利技术属于文本评分
,具体是一种多维度分析作文进行评分的方法。
技术介绍
20世纪三四十年代以来,一批新兴技术开始兴起,计算机互联网也开始诞生。“科技是第一生产力”,互联网技术的发展促进着各行各业的变革。网络阅卷,自动批改则是教育行业受互联网技术冲击的产物。目前的网络阅卷自动批改已经涵盖了小、初、高各个年级以及语数外等各个学科。其中英语学科的批改往往是各研究者最早研发的项目,而作文批改则是英语学科批改的重中之重,虽然英语作文自动批改的研究已有几十年的历史,但是评分的准确率却不尽人意。对英语作文自动批改方法继续研究改良仍然有很大的必要。现有的作文评分方法主要基于一些浅层特征或者计算作文文本与已评分作文的相似度进行评分。从作文文本中抽取简单的浅层特征,根据各特征对应的分数分布利用机器学习拟合回归,这种方式可以在一定程度上拟合出作文分数,但是其特征过于简单片面,不能全面反映作文的分数,故误差较大;而根据与已评分作文的相似度来评分在某些时候分数较为准确,然而一旦作文题目与已评分作文语料相差过多则评分效果会直线下滑。因此作文评分还有很多工作去做。
技术实现思路
(一)解决的技术问题:解决识别的作文文本评分不够准确问题,提供一种基于多模块全方位分析识别的作文文本进行评分的方法。(二)技术方案:为实现上述目的,一种图像识别的英语作文评分方法,采用的方案为先利用多个模块分别提取不同维度的特征,对不同维度特征进行扩展计算后,利用xgboost模型集成训练所有特征,最后利用已训练的模型预测作文分数。方法包括基础特征、主题特征、书写特征、语义特征四个特征模块与集成预测模块。优选的,所述基础特征模块具体描述为:利用传统自然语言处理方法统计字符级别文本特征,包括字符数、标点数、句子数、段落数、单词数、单词集合数、单词平均长度、句子平均长度、停用词数、非停用词数、名词数、动词数、形容词数、介词数、副词数、连词数以及统计各单词的词频分布。对各词性单词数的统计需利用开源工具spacy对作文文本做词性标注,然后统计标注的各词性单词数量。计算词频分布需先统计已有作文数据中各单词的词频,对所有单词按照词频进行排序,对有序单词分别按正序与倒序划分13个与9个阶段范围,即正序为[0:100](词频最高前100单词)、[100:300](词频最高的第100至第300计200个单词)、[300:600]、[600:1000]、[1000:1500]、[1500:2000]、[2000:3000]、[3000:5000]、[5000:8000]、[8000:12000]、[12000:17000]、[17000:25000]、[25000:-1],倒序为[-1:-100](词频最低的100个单词)、[-100:-200]、[-200:-400]、[-400:-700]、[-700:-1000]、[-1500:-2000]、[-2000:-3000]、[-3000:-5000]、[-5000:-10000],然后统计作文文本中所有单词所属各自范围的数量作为词频分布特征,将所有基础特征整合后训练xgboost模型。优选的,所述主题特征模块具体描述为:先把识别出来的作文文本分成跑题与非跑题两类,然后将每一篇作文文本与该场考试中其他学生作文文本组合构成文本对,对一篇跑题一篇不跑题的两篇作文构成的文本对人工标注label为1,其他组合构成的文本对为0,组建文本对训练数据集,通过三个方案计算文本对的相似度,一个方案是利用50维glove词向量对文本做词向量嵌入,将文本转换为向量矩阵,然后用Bilstm神经元从文本矩阵提取语义特征矩阵,作为siamese网络前段输入层,用矩阵叠加和矩阵相减处理两篇文本的语义特征矩阵,两种处理结果拼接后传入全连接层与softmax层输出相似数值;一个方案是以考试为单位,对预处理后文本集利用tfidf选出该考试关键词集,用这些关键词集组建onehot向量,利用余弦相似计算文本对相似度;最后一个方案是先用spacy对文本进行词性标注,统计文本中词性为名词的单词,挑选其中的高频名词作为关键词集,组建onehot向量,利用余弦相似计算文本对相似度;将每篇文章与该考试内其他文章利用这三种方案分别计算出各自相似度的平均值、方差、中位数、最大值、最小值作为跑题模块扩展计算后的特征数据。优选的,所述书写特征模块具体描述为:作文区域图像先缩放到224*224的小图,将224*224小图进行人工标注,根据手写字体是否美观分为1、2、3、4(对应“较差”、“一般”、“良好”、“优秀”),一共四个类别,采用密集连接卷积网络denseNet训练分类模型,对224*224的小图预测书写类别。密集连接卷积网络denseNet设置如下:(1)、学习率:0.01,衰减率为0.9;(2)、优化器:Adagrad;(3)、batch:32;(4)、epoch:50;优选的,所述语义模块具体描述为:先对文本利用glove词向量做词向量嵌入,然后Bilstm神经元从文本矩阵提取语义特征矩阵,传入全连接层与softmax层输出相应分数。优选的,所述集成预测模块具体描述为:将基础模块、主题模块、书写模块、语义模块四个模块输出的多维特征整合作为xgboost模型的输入,进行最终预测。一种针对图像识别的英语作文评分方法,包括以下具体步骤:步骤一、准备数据:以考试为单位,准备识别好的作文文本(50场以上的考试数据,每场考试人数50+),确保每场考试都有跑题作文;准备作文区块的扫描图像4000张,尽可能包含应用场景的各种答题试卷类型;步骤二、浅层特征提取:对每篇文本预处理并提取如下特征,字符数、标点数、句子数、段落数、单词数、单词集合数、单词平均长度、句子平均长度、停用词数、非停用词数,利用spacy对作文文本做词性标注,统计名词数、动词数、形容词数、介词数、副词数、连词数,统计所有作文文本词频,并排序,对有序单词分别按正序与倒序划分13个与9个阶段范围,即正序为[0:100](词频最高前100单词)、[100:300](词频最高的第100至第300计200个单词)、[300:600]、[600:1000]、[1000:1500]、[1500:2000]、[2000:3000]、[3000:5000]、[5000:8000]、[8000:12000]、[12000:17000]、[17000:25000]、[25000:-1],倒序为[-1:-100](词频最低的100个单词)、[-100:-200]、[-200:-400]、[-400:-700]、[-700:-1000]、[-1500:-2000]、[-2000:-3000]、[-3000:-5000]、[-5000:-10000],然后统计作文文本中所有单词所属各自范围的数量。步骤三、基础模型训练:对步骤二中提取的浅层特征进行整合,利用xgboost模型训练得到基础评分模型;...

【技术保护点】
1.一种针对图像识别的英语作文评分方法,其特征在于,从作文文本中提取基础字符、主题内容、深层语义、图像书写四方面的特征,利用xgboost集成计算出最终得分,主要包括:基础特征模块、主题特征模块、书写特征模块、语义特征模块四个特征模块与集成预测模块。/n

【技术特征摘要】
1.一种针对图像识别的英语作文评分方法,其特征在于,从作文文本中提取基础字符、主题内容、深层语义、图像书写四方面的特征,利用xgboost集成计算出最终得分,主要包括:基础特征模块、主题特征模块、书写特征模块、语义特征模块四个特征模块与集成预测模块。


2.根据权利要求1所述的一种针对图像识别的英语作文评分方法,其特征在于,所述基础特征模块具体描述为:从字符层面提取文本特征,主要有字符数、标点数、句子数、段落数、单词数、单词集合数、单词平均长度、句子平均长度、停用词数、非停用词数、名词数、动词数、形容词数、介词数、副词数、连词数共16维特征,以及词频分布22维特征。


3.根据权利要求2所述的一种针对图像识别的英语作文评分方法,其特征在于,所述词频分布22维特征具体描述为:对已有作文数据集统计词频,对各单词按照词频从高到低排序,对有序单词分别按正序与倒序划分13个与9个阶段范围,即正序为[0:100](词频最高前100个单词)、[100:300](词频最高的第100至第300计200个单词)、[300:600]、[600:1000]、[1000:1500]、[1500:2000]、[2000:3000]、[3000:5000]、[5000:8000]、[8000:12000]、[12000:17000]、[17000:25000]、[25000:-1],倒序为[-1:-100](词频最低的100个单词)、[-100:-200]、[-200:-400]、[-400:-700]、[-700:-1000]、[-1500:-2000]、[-2000:-3...

【专利技术属性】
技术研发人员:侯冲李哲陈家海叶家鸣吴波
申请(专利权)人:安徽七天教育科技有限公司
类型:发明
国别省市:安徽;34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1