一种采用LSTM神经网络的中文短文本主观题自动评分方法和系统技术方案

技术编号:17812854 阅读:234 留言:0更新日期:2018-04-28 05:34
本发明专利技术为一种采用LSTM神经网络的中文短文本主观题自动评分方法,包括:(1)对答案文本进行分词,将文本转化为一个词序列;(2)获取答案文本中每个词的向量化表示并构建答案文本映射矩阵;(3)采用LSTM神经网络对答案文本映射矩阵进行运算,获取所有或部分隐含层的输出,得到答案文本的语义特征矩阵;(4)利用池化算法对所述语义特征矩阵进行下采样得到所述答案文本的语义特征向量;(5)将答案文本的语义特征向量赋予分类器,对答案文本的类别进行预测;(6)考虑答案文本所属类别与得分之间的多对一关系,根据预设的两者之间的映射,确定答案文本的得分。本发明专利技术能够不依赖主观题标准答案,有效挖掘答案文本语义信息,实现中文短文本主观题自动评分。

【技术实现步骤摘要】
一种采用LSTM神经网络的中文短文本主观题自动评分方法和系统
本专利技术涉及自动批阅
,具体来说,是一种采用长短时记忆(LSTM,LongShort-TermMemory)神经网络的中文短文本主观题自动评分方法和系统,它可以应用于由中文自然语言回答的翻译、简答、判断、图文转化等问题的自动评分,并最终应用于作业及试卷的批阅及学生的学习评价过程。
技术介绍
主观题在学科学习及教学中占据着非常重要的地位,其最大的优势是能够测量各种比较复杂的行为目标,更可以考查学生的创造性思维能力和运用表达能力。主观题也由此成为学科教学及测试中使用最为广泛的题型之一。繁重的、机械的主观题批阅工作占据了教师的大量时间和精力,而学生们则希望实时的得到关于作业情况的反馈,因此教师和学生都迫切的希望由计算机来实现客观有效、省时省力省资源的主观题自动批阅。主观题自动评分的实现具有非常重要的现实意义:首先,能够极大提高教师批阅环节的效率,有效减轻教师工作负担;其次,能够减少评阅老师的主观偏好、身体状况和心理状态等因素对评分准确性的影响;再次,可为在线学习的学生提供实时反馈,节省批阅等待时间,提高学习效率;最后,能够应用于自动的自适应学习和自适应测评任务,是实现智能教学系统的关键技术。在日常的教学和考试中,短文本主观题主要包括翻译、简答、判断等类型,特点为:(1)以自然语言的形式回答;(2)答案的长度较短,一般不超过一段话;(3)学生无法从题干中获得答案信息,必须对领域知识进行理解应用和迁移;(4)评分时侧重于对答案文本内容的考察,而非文本的写作风格、修辞手法等特征;(5)问题的开放性多种多样,可以是封闭的、半封闭或开放的。实现计算机对短文本主观题的自动评分,需要计算机能够更深刻的“理解”文本的语义信息。另外,受到答案文本长度的限制,计算机可以从中抽取出的统计信息(如词语共现、上下文信息等)有限,传统的基于统计的自然语言处理方法和模型面临着数据稀疏和语义敏感性等问题。因此,获得准确的主观题的自动评分,仍然是一个极具挑战和亟待解决的技术问题。主观题的自动评分作为智能教育的关键技术之一,在教育
占据着非常重要的地位。总结国内外现有成果发现一般的评分方法框架主要分以下4个模块,如图1所示:模块(1):建立数据库。数据库中包含试题、标准答案、评分标准及学生答案等相关数据。模块(2):预处理。对答案文本进行分词、去重、去停用词、词性标注等处理。模块(3):建立评分模型。该模块中包含两个子模块,两者相互影响,相互制约:A.特征提取:利用自然语言处理技术,基于规则、统计或神经网络等方法进行文本特征提取,将答案文本向量化。B.建模方法:利用概念映射、信息抽取、基于语料库的方法和机器学习等方法,建立评分模型。模块(4):评分。对于新的学生答案文本,首先对其进行模块(2)的处理,然后放入到模块(3)建立的模型中,对新的学生答案进行标签预测,再根据预测出的标签给出该条答案的最终评分。在上述自动评分的框架中,核心的模块为模型建立模块(即模块(3)),主流的方法可以分为以下4类:(1)概念匹配:主要思想是将标准答案视为几个核心概念或关键词的组合,根据学生答案中是否存在这些核心概念进行评分。这种方法比较适用于有明确答案且答案较为简短的类型题目。典型的系统有ATM(AutomaticTextMarker)和C-rater等。(2)信息提取:主要思想是认为答案文本中通常会包含某些具体的观点,这些观点可以用模板进行定位和建模,学生答案和标准答案的模板匹配度为打分依据。首先,从非结构化的数据中提取由元组表示的结构化信息;然后利用如正则表达式或解析树等模式匹配算法进行模式匹配。典型的系统有AutoMark、WebLSA(Web-basedLanguageAssessmentSystem)和Auto-marking等。(3)基于语料的方法:该方法是在大型的文本语料库中抽取语料库的统计特征,利用这些统计特征计算学生答案与标准答案的文本相似度,根据相似度的高低对学生答案打分。常用的方法为潜在语义分析(LSA,LatentSemanticAnalysis)。基于语料的方法的评分性能与语料库的规模成正比。典型的系统有Atenea和SAMText(ShortAnswerMeasurementofText)等。(4)机器学习:主要思想是将对短文本的评分问题转化为文本分类或聚类问题。首先,利用自然语言处理技术提取学生答案的特征,将文本进行向量化表示。这里提取特征主要包括答案的文本特征、答案与标准答案之间的相似特征等。然后,将学生答案的得分作为类别标签,利用机器学习算法对提取的学生答案特征进行分类建模从而得到评分模型,常用的分类算法为K近邻、逻辑回归、朴素贝叶斯法及支持向量机等。典型的系统有e-Examiner和CAM(ContentAssessmentModule)等。对中文主观题进行自动评分,目前主流的技术主要存在以下几个问题:(1)上述方法主要用于英文主观题自动评分,但由于中文和英文的自然语言处理技术的巨大差异,因此上述方法很难移植到中文主观题的自动评分中。(2)上述方法针对封闭式问题,即该类问题具有标准答案,但在实际的教学和考试中,很多问题并没有标准答案的。如语文考试中,有些题目的评分标准为“言之成理即可”或者“意思对即得分”。而对于这类没有标准答案且评分标准比较模糊的问题,上述算法并不适用。(3)上述方法大部分依赖传统的语言模型,提取文本特征表示的方法复杂,无法解决短文本长度较短带来的数据稀疏性和语义敏感性等问题。近年来,深度学习(DeepLearning)算法在自然语言处理(NLP,NaturalLanguageProcessing)领域取得了令人瞩目的成果。相较于传统的语言模型,基于深度学习的模型能够更好的挖掘词、短语、句子及篇章的语义信息。特别的,循环神经网络(RNN,RecurrentNeuralNetwork)由于其适应序列信息建模而被广泛的应用于自然语言处理的任务中,并取得了良好的效果。带有LSTM单元的RNN,解决了传统RNN中的长程依赖问题和梯度消失问题,因而更为学者们所关注。
技术实现思路
本专利技术的任务是克服现有技术的不足,考虑到中文短文本主观题自动评分问题的特点、面对的挑战及LSTM神经网络在语言模型建立问题上的优势,提出了一种采用LSTM神经网络的中文短文本主观题自动评分方法及系统,能够在不依赖于标准答案的情况下对中文短文本主观题进行自动评分。本专利技术将中文主观题自动评分问题转化为文本分类问题,使用预训练的词向量来对学生答案文本进行表示,然后利用长短时记忆神经网络(LSTM,LongShort-TermMemoryNeuralNetwork)提取文本的语义特征向量,用于训练分类器,对答案文本进行分类预测,最后根据预定的类别与评分之间的映射关系确定该条答案的最终得分。本专利技术首次将LSTM神经网络引入到中文短文本主观题自动评分方法中,是LSTM神经网络在中文短文本主观题自动评分中的新应用。所述专利技术方法,解决了中文主观题的自动评分问题,降低了评分算法对标准答案的依赖性。同时,较传统的主观题自动评分方法,本专利技术在对答案文本进行向量化表示时考虑了词语在上下本文档来自技高网
...
一种采用LSTM神经网络的中文短文本主观题自动评分方法和系统

【技术保护点】
一种采用LSTM神经网络的中文短文本主观题自动评分方法,其特征在于,包括以下步骤:步骤1:对主观题的答案文本进行分词操作,将答案文本转化为一个词序列;步骤2:获取答案文本中每个词的向量化表示,并构建答案文本映射矩阵;步骤3:采用LSTM神经网络对答案文本映射矩阵进行运算,获取所有或部分隐含层的输出,得到答案文本的语义特征矩阵;步骤4:利用池化算法对所述语义特征矩阵进行下采样得到所述答案文本的语义特征向量;步骤5:将步骤4获得的答案文本的语义特征向量赋予多类逻辑斯谛分类器,对答案文本的类别进行预测;步骤6:根据预设的答案文本所属类别与得分的映射关系,确定答案文本的得分。

【技术特征摘要】
1.一种采用LSTM神经网络的中文短文本主观题自动评分方法,其特征在于,包括以下步骤:步骤1:对主观题的答案文本进行分词操作,将答案文本转化为一个词序列;步骤2:获取答案文本中每个词的向量化表示,并构建答案文本映射矩阵;步骤3:采用LSTM神经网络对答案文本映射矩阵进行运算,获取所有或部分隐含层的输出,得到答案文本的语义特征矩阵;步骤4:利用池化算法对所述语义特征矩阵进行下采样得到所述答案文本的语义特征向量;步骤5:将步骤4获得的答案文本的语义特征向量赋予多类逻辑斯谛分类器,对答案文本的类别进行预测;步骤6:根据预设的答案文本所属类别与得分的映射关系,确定答案文本的得分。2.根据权利要求1所述方法,其特征在于,所述步骤2中,在预设的词典中,对答案文本中的每个词进行搜索以获得该词的向量化表示,然后依据每个词在答案文本中出现的先后顺序,构建答案文本映射矩阵;对于所述答案文本中的个别词没有出现在所述词典中的情况,可视其为停用词进行丢弃处理。3.根据权利要求1所述方法,其特征在于,所述步骤3中,利用LSTM神经网络对答案文本映射矩阵M进行运算,提取答案文本的语义特征,生成答案文本的语义特征矩阵H,矩阵H由所述LSTM神经网络所有或部分隐含层的输出向量组成。4.根据权利要求1所述方法,其特征在于,所述步骤3中,答案文本映射矩阵M输入LSTM神经网络的方式为:每一时刻输入矩阵M的一列至LSTM神经网络,矩阵M的列向量以列标升序排列依次输入LSTM神经网络,有效保留了答案文本的词序信息。5.根据权利要求1所述方法,其特征在于,所述步骤3和步骤5中的LSTM神经网络模型参数及分类器模型参数均在所述评分模型训练过程中获得,采用最小化目标概率分布与实际概率分布的交叉熵...

【专利技术属性】
技术研发人员:余胜泉杨熙黄俞卫庄福振张立山
申请(专利权)人:北京师范大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1