一种基于领域本体的高准确率主观题计算机自动阅卷方法技术

技术编号:11287078 阅读:109 留言:0更新日期:2015-04-11 01:53
一种基于领域本体的高准确率主观题计算机自动阅卷方法,首先构建一个适用于主观题自动阅卷的领域本体的结构,并将领域关系解释成一个描述领域事件的自然语言的语句;其次构建一个基于领域本体与试题描述逻辑的主观题题库结构,并要求试题符合主观题题库结构;然后对考生答卷按下述步骤进行阅卷:(1)获取考生答卷中的单字词与词性标注;(2)标注本体元素;(3)生成基于领域关系的答卷语义;(4)基于领域关系的答案与答卷语义相似度计算;(5)计算出该主观题的考生答卷得分。该方法极大地简化了考生答卷中自然语言的语义分析与处理流程,更完整地表示出答案领域知识的语义,确保了主观题自动阅卷的准确性。

【技术实现步骤摘要】
一种基于领域本体的高准确率主观题计算机自动阅卷方法
本专利技术涉及教育
中的考试阅卷自动化,具体是基于领域本体的主观题自动阅卷方案,更具体是一种基于领域本体与领域关系语义相似度的高准确率主观题计算机自动阅卷方案,该方案将计算机作为工具,以键盘输入的考生答卷作为处理对象,帮助教师实现主观题高准确率的自动阅卷,可广泛应用于各个学科的主观题计算机自动阅卷系统中。
技术介绍
近年来的各类考试中大都采用考生填写答题卡这一方式,仔细推敲,我们会发现,对于试题答案以选项编号表示的单选题、多选题、判断题等的客观题,可以由计算机完全代替人工阅卷,但是对于答案需要使用自然语言表示的主观题的阅卷仍需由人工耗时耗力地完成。由于单选题、多选题、判断题等客观题目的答案都是以选项编号表示,目前计算机对于此类题型进行自动阅卷时,只需将标准答案的选项编号与考生答案的选项编号进行简单的匹配运算,匹配成功则答案正确,该处理技术已经取得一定的成果,但对于答案采用自然语言表示的主观题自动阅卷技术,如:对简答题、名词解释和论述题等自动评分,由于其受到自然语言理解、模式识别等理论与技术瓶颈影响,效果不甚理想。主观题不同于客观题,不仅需要采用自然语言表示答案,而且具有一定的主观性,允许考生在一定的范围内答题,因此答案往往不是唯一的。另一方面,教师在批阅试卷的时候,还可能会受到主观因素的影响,以及考生字体是否美观、卷面是否整洁等的影响,使得教师在评分时,出现不合理的加分或扣分现象,有失考试的公正性和公平性。而主观题的计算机自动阅卷,既减轻了教师人工阅卷的劳动强度,又减少人为因素的影响,保证了阅卷的客观性、公正性,因此主观题计算机自动阅卷技术的研究,具有重大的意义。然而,由于主观题考生答卷的多样性与随意性,目前还没有使用计算机对主观题进行自动阅卷的成熟技术。目前,在各类计算机考试系统中,普遍采用关键字匹配技术进行主观题自动阅卷,即在答案中标注出若干关键字或关键词,将其与考生答卷进行匹配,并根据匹配成功的多少对考生答卷进行评分,由于自然语言的多样性与随意性,这种方法的评分准确率非常低。为提高评卷的准确率,目前出现了少量的基于领域本体的主观题自动阅卷方法,但大多仍简单地将本体元素标注成关键字,由于没有形成答案的完整语义,这种方法的效果也不理想。
技术实现思路
针对语义分析是自然语言处理的瓶颈,以及主观题自动阅卷方法中的答案语义不精确、表达能力弱与评分准确度低等弱点,本专利技术提出了一种基于领域本体的高准确率主观题自动阅卷方案。本专利技术通过本体实现领域知识的形式化,通过所设计的试题描述逻辑完成对主观题的本体元素的标注与答案语义的完整表示,更为重要的是,本专利技术通过抽取出试题答案中的本体元素形成领域关系来表示主观题答案的语义,从而更加准确地表示出答案所包含的领域知识,同时采用基于领域关系语义相似度的方法评定考生的答卷,确保了主观题自动阅卷的准确性。本专利技术的
技术实现思路
包括:一个适用于主观题自动阅卷的领域本体的结构;一个可提高主观题答案语义表示的试题描述逻辑系统;一个基于领域本体与试题描述逻辑的主观题题库结构;一套考生答卷预处理与答卷自动评阅的工作流程,包括考生答卷本体元素的标注步骤、答卷语义生成步骤,以及基于领域关系的答案答卷语义相似度与答卷评分算法。本专利技术的技术方案如下。一种基于领域本体的高准确率主观题计算机自动阅卷方法,首先构建一个适用于主观题自动阅卷的领域本体的结构,并将领域关系解释成一个描述领域事件的自然语言的语句;其次构建一个基于领域本体与试题描述逻辑系统的主观题题库结构,并要求试题符合主观题题库结构;然后对考生答卷按下述步骤进行阅卷:(1)获取考生答卷中的单字与单词并标注词性;(2)标注本体元素;(3)生成基于领域关系的答卷语义;(4)基于领域关系的答案与答卷语义相似度计算;(5)计算出该主观题的考生答卷得分;所述主观题题库结构定义成一个半结构的形式,即在同一个试题记录中可以包含多个同义题目与答案字段,其BNF定义为:<主观题题库结构>::=(<题目>,{<同义题目>},<题目标注>,{<答案>,<答案标注>,<答案语义>})其中,<题目>与<答案>是直接面向考生的自然语言表达形式;<同义题目>是与<题目>具有相同语义的不同表现形式,用于实现题目多种形式的显现;<题目标注>是通过试题描述逻辑标注出本体元素(包括本体的概念、实例、属性与关系)的主观题题目,主要用于通过本体元素的同义词实现题目显现的多样性;<答案标注>是标注有本体元素的试题答案,主要用于实现答案语义的抽取;<答案语义>通过抽取试题答案中的本体元素形成若干个领域关系来表示,从而更准确地表示出答案所包含的领域知识,<答案语义>的结构为:<答案语义>::=<[~]关系1(定义域,值域)>[&[~]<关系2(定义域,值域)>&……&<[~]关系n(定义域,值域)>]。本专利技术将领域本体形式化为一个五元组:O={C,A,R,I,SY}(1)C表示与某个领域相关的所有概念的集合,该集合界定了主观题的主题范围;(2):是概念的数据属性的集合,表示概念的内涵,用于界定主观题题库中概念与个体的特征范围;(3)表示概念之间的二元领域关系集合,反映某个领域中的概念之间所建立的联系,用于界定主观题题库中概念之间的联系范围,同时本专利技术将领域关系解释成一个描述领域事件的自然语言的语句;(4)I代表实例集合,表示某个领域所有概念的具体实体,在主观题中作为领域对象使用;(5)SY代表同义词集合。本专利技术所述的领域关系中包括关系名、定义域和值域;所述关系名代表一个领域事件,为句子的动词,所述定义域表示事件实施者,为句子的主语,所述值域表示事件的内容或接受者,为句子的宾语;并且,在领域关系规定关系名带介词的关系表示被动语态;关系的形态分为如下三种类型:1)关系名不带介词的关系:表示主动语态,关系对应的句子结构为:定义域+关系名+值域;2)关系名带后缀介词的关系:表示被动语态,关系名在对应的事件句子中不用分拆,关系对应的句子结构为:定义域+关系名+值域;3)关系名带一个由下划线“_”连接的前缀介词的关系:表示被动语态,且关系名在对应的事件句子中需要分拆使用,并由前缀介词分隔句子的主语与宾主,关系对应的句子结构为:定义域+前缀介词+值域+关系名。本专利技术的试题描述逻辑系统QDLS是一个以领域本体元素为描述对象,对主观题题目与答案进行本体标注与语义解释的一种特殊的描述逻辑,定义成如下的三元组:QDLS::=(<描述符>,<运算符>,<标注符>)其中:描述符:用于声明主观题中本体元素的类型;运算符:将描述逻辑的常规运算符以更简洁的符号来表示,以方便运算符的使用;标注符:用于分隔与界定主观题中的本体元素。本专利技术的在步骤(1),考生答卷中的单字与单词获取与词性的标注是在本体同义词库与常规语言词典的共同支持下进行的。从而最大限度地获取学生答卷的语义,确保了主本文档来自技高网
...
一种基于领域本体的高准确率主观题计算机自动阅卷方法

【技术保护点】
一种基于领域本体的高准确率主观题计算机自动阅卷方法,其特征在于:首先构建一个适用于主观题自动阅卷的领域本体的结构,并将领域关系解释成一个描述领域事件的自然语言的语句;其次构建一个基于领域本体与试题描述逻辑系统的主观题题库结构,并要求试题符合主观题题库结构;然后对考生答卷按下述步骤进行阅卷:(1)获取考生答卷中的单字与单词并标注词性;(2)标注本体元素;(3)生成基于领域关系的答卷语义;(4)基于领域关系的答案与答卷语义相似度计算;(5)计算出该主观题的考生答卷得分;所述主观题题库结构定义成一个半结构的形式,即在同一个试题记录中可以包含多个同义题目与答案字段,其BNF定义为:<主观题题库结构>::=(<题目>,{<同义题目>},<题目标注>,{<答案>,<答案标注>,<答案语义>})其中,<题目>与<答案>是直接面向考生的自然语言表达形式;<同义题目>是与<题目>具有相同语义的不同表现形式,用于实现题目多种形式的显现;<题目标注>是通过试题描述逻辑标注出本体元素(包括本体的概念、实例、属性与关系)的主观题题目,主要用于通过本体元素的同义词实现题目显现的多样性;<答案标注>是标注有本体元素的试题答案,主要用于实现答案语义的抽取;<答案语义>通过抽取试题答案中的本体元素形成若干个领域关系来表示,<答案语义>的结构为:<答案语义>::=<[~]关系1(定义域,值域)>[&[~]<关系2(定义域,值域)>&……&<[~]关系n(定义域,值域)>]。...

【技术特征摘要】
1.一种基于领域本体的高准确率主观题计算机自动阅卷方法,其特征在于:首先构建一个适用于主观题自动阅卷的领域本体的结构,并将领域关系解释成一个描述领域事件的自然语言的语句;其次构建一个基于领域本体与试题描述逻辑系统的主观题题库结构,并要求试题符合主观题题库结构;然后对考生答卷按下述步骤进行阅卷:(1)获取考生答卷中的单字与单词并标注词性;(2)标注本体元素;(3)生成基于领域关系的答卷语义;(4)基于领域关系的答案与答卷语义相似度计算;(5)计算出该试题的考生答卷得分;所述主观题题库结构定义成一个半结构的形式,即在同一个试题记录中包含多个同义题目与答案字段,其BNF定义为:<主观题题库结构>::=(<题目>,{<同义题目>},<题目标注>,{<答案>,<答案标注>,<答案语义>})其中,<题目>与<答案>是直接面向考生的自然语言表达形式;<同义题目>是与<题目>具有相同语义的不同表现形式,用于实现题目多种形式的显现;<题目标注>是通过试题描述逻辑标注出本体元素的主观题题目,主要用于通过本体元素的同义词实现题目显现的多样性;<答案标注>是标注有本体元素的试题答案,主要用于实现答案语义的抽取;<答案语义>通过抽取试题答案中的本体元素形成若干个领域关系来表示,<答案语义>的结构为:<答案语义>::=<[~]领域关系1(定义域,值域)>[&[~]<领域关系2(定义域,值域)>&......&<[~]领域关系n(定义域,值域)>];领域关系中包括关系名、定义域和值域。2.根据权利要求1所述的自动阅卷方法,其特征在于:将领域本体形式化为一个五元组:O={C,P,R,I,SY}1)C表示与某个领域相关的所有概念的集合,该集合界定了主观题的主题范围;2)P是概念的数据属性的集合,表示概念的内涵,用于界定主观题题库中概念与个体的特征范围;DT是一个数据类型集合;3)表示概念之间的二元领域关系集合,反映某个领域中的概念之间所建立的联系,用于界定主观题题库中概念之间的联系范围;4)I代表实例集合,表示某个领域所有概念的具体实体,在主观题中作为领域对象使用;5)SY代表同义词集合。3.根据权利要求1所述的自动阅卷方法,其特征在于:领域关系中包括关系名、定义域和值域;所述关系名代表一个领域事件,为句子的动词,所述定义域表示事件实施者,为句子的主语,所述值域表示事件的内容或接受者,为句子的宾语;并且,在领域关系的形态中规定“关系名带介词的领域关系”表示被动语态;领域关系的形态分为如下三种类型:1)关系名不带介词的领域关系:表示主动语态,领域关系对应的句子结构为:定义域+关系名+值域;2)关系名带后缀介词的领域关系:表示被动语态,关系名在对应的事件句子中不用分拆,领域关系对应的句子结构为:定义域+关系名+值域;3)关系名带一个由下划线“_”连接的前缀介词的领域关系:表示被动语态,且关系名在对应的事件句子中需要分拆使用,并由前缀介词分隔句子的主语与宾语,领域关系对应的句子结构为:定义域+前缀介词+值域+关系名。4.根据权利要求1所述的自动阅卷方法,其特征在于:试题描述逻辑系统QDLS是一个以领域本体元素为描述对象,对主观题题目与答案进行本体标注与语义解释的一种特殊的描述逻辑,定义成如下的三元组:QDLS::=(<描述符>,<运算符>,<标注符>)其中:描述符:用于声明主观题中本体元素的类型;运算符:将描述逻辑的常规运算符以更简洁的符号来表示,以方便运算符的使用;标注符:用于分隔与界定主观题中的本体元素;所述描述逻辑的常规运算符包括三种:常规描述逻辑中的合取运算符“与”、常规描述逻辑中的析取运算符“或”、常规描述逻辑中的否定运算符“非”。5.根据权利要求1所述的自动阅卷方法,其特征在于:在步骤(1),考生答卷中的单字与单词获取与词性的标注是在本体同义词库与常规语言词典的共同支持下进行的。6.根据权利要求1所述的自动阅卷方法,其特征在于:在步骤(2),步骤、规则与格式包括:1)概念标注:将答卷中的名词逐个与领域本体中的概念同义词进行匹配,若有与其相同的概念,则将该名词标注为概念,标注格式为:<概念名:C>;2)实例标注:将答卷中概念标注后剩余的名词与专用名词短语逐个与领域本体中的实例同义词进行匹...

【专利技术属性】
技术研发人员:朱新华李飞陈宏朝袁鼎荣邓涵
申请(专利权)人:广西师范大学
类型:发明
国别省市:广西;45

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1