基于文本相似度的非主观题阅卷方法、装置及存储介质制造方法及图纸

技术编号:22022169 阅读:34 留言:0更新日期:2019-09-04 01:16
本发明专利技术涉及一种人工智能技术,揭露了一种基于文本相似度的非主观题阅卷方法,包括:对特定领域的专有词语进行收集汇总,构建特定词汇的文本语料库;获取考试试卷中考生答案的文本内容;根据所述文本语料库,对所述考试试卷的标准答案和考生答案的文本内容按照预先确定的分词规则分别进行分词操作,并产生所述标准答案和考生答案的分词向量;利用预设算法计算所述标准答案和考生答案的分词向量之间的相似度;及从所述分词向量中选择标准答案的得分要点,根据标准答案的得分要点及所述相似度匹配相应的分值,对考生答案中每道非主观题进行智能打分。本发明专利技术还提出一种装置以及一种计算机可读存储介质。本发明专利技术能够实现试卷的精确的智能化评分。

Text Similarity Based Non-Subjective Paper Scoring Method, Device and Storage Media

【技术实现步骤摘要】
基于文本相似度的非主观题阅卷方法、装置及存储介质
本专利技术涉及人工智能
,尤其涉及一种基于文本相似度的非主观题阅卷方法、装置及计算机可读存储介质。
技术介绍
考试作为对学习效果和知识掌握程度的一种检验方法,在日常工作和生活中广泛存在。由于各类培训考试人数较多、规模较大,而且人工阅卷中会有很多主观因素影响评分结果,如教师的疲劳程度、心情状态以及考生的字体是否美观等,因此教育和培训机构对于自动阅卷的需求日趋强烈。
技术实现思路
本专利技术提供一种基于文本相似度的非主观题阅卷方法、装置及计算机可读存储介质,其主要目的在于提供一种非主观题阅卷方法,以实现试卷的智能化评分。为实现上述目的,本专利技术的基于文本相似度的非主观题阅卷方法,包括:对特定领域的专有词语进行收集汇总,构建特定词汇的文本语料库;获取考试试卷中考生答案的文本内容;根据所述文本语料库,对所述考试试卷的标准答案和考生答案的文本内容按照预先确定的分词规则分别进行分词操作,并产生所述标准答案和考生答案的分词向量;利用预设算法计算所述标准答案和考生答案的分词向量之间的相似度;及从所述分词向量中选择标准答案的得分要点,根据标准答案的得分要点并结合所述标准答案和考生答案的分词向量之间的相似度匹配相应的分值,对考生答案中每道非主观题进行智能打分。可选地,所述获取考试试卷中考生答案的文本内容包括:针对笔试方式的考试试卷,获取考试试卷的影像图像,识别出所述影像图像中非主观题部分问题的考生答案,并将所述考生答案转换为文本格式,形成所述考生答案的文本内容;及针对机答方式的考试试卷,直接获取所述考生的答案部分,形成所述考生答案的文本内容。可选地,所述预先确定的分词规则包括利用隐性马尔科夫模型和关键词抽取算法对标准答案和考生答案进行文本改写,并利用K-means算法和朴素贝叶斯分类器构建词袋模型,实现分词操作。可选地,所述预设算法为余弦相似度算法,公式为:其中,X、Y分别为标准答案和考生答案的分词向量,sim(X,Y)表示标准答案和考生答案的分词向量之间的余弦相似度、范围从-1到1。其中,sim(X,Y)的值越接近-1,表示两个分词向量指向的方向相反,相似度越低,值越接近1,表示两个分词向量指向的方向相同,相似度越高,0代表两个分词向量之间具有独立性,表示中度的相似性或相异性。可选地,所述从所述分词向量中选择标准答案的得分要点,根据标准答案的得分要点并结合所述标准答案和考生答案的分词向量之间的相似度匹配相应的分值,对考生答案中每道非主观题进行智能打分包括:预先设置标准答案的多个得分要点,并针对每个得分要点的重要程度设置各得分要点的分值比重;根据所述标准答案和考生答案的分词向量的相似度,筛选出与所述标准答案的得分要点相匹配的考生答案中的关键词;通过计算考生答案中所有关键词对应的得分要点的分值比重,得到该试卷的非主观题得分。此外,为实现上述目的,本专利技术还提供一种装置,该装置包括存储器和处理器,所述存储器中存储有可在所述处理器上运行的基于文本相似度的非主观题阅卷程序,所述基于文本相似度的非主观题阅卷程序被所述处理器执行时实现如下步骤:对特定领域的专有词语进行收集汇总,构建特定词汇的文本语料库;获取考试试卷中考生答案的文本内容;根据所述文本语料库,对所述考试试卷的标准答案和考生答案的文本内容按照预先确定的分词规则分别进行分词操作,并产生所述标准答案和考生答案的分词向量;利用预设算法计算所述标准答案和考生答案的分词向量之间的相似度;及从所述分词向量中选择标准答案的得分要点,根据标准答案的得分要点并结合所述标准答案和考生答案的分词向量之间的相似度匹配相应的分值,对考生答案中每道非主观题进行智能打分。可选地,所述预先确定的分词规则包括利用隐性马尔科夫模型和关键词抽取算法对标准答案和考生答案进行文本改写,并利用K-means算法和朴素贝叶斯分类器构建词袋模型,实现分词操作。可选地,所述预设算法为余弦相似度算法,公式为:其中,X、Y分别为标准答案和考生答案的分词向量,sim(X,Y)表示标准答案和考生答案的分词向量之间的余弦相似度、范围从-1到1。可选地,所述从所述分词向量中选择标准答案的得分要点,根据标准答案的得分要点并结合所述标准答案和考生答案的分词向量之间的相似度匹配相应的分值,对考生答案中每道非主观题进行智能打分包括:预先设置标准答案的多个得分要点,并针对每个得分要点的重要程度设置各得分要点的分值比重;根据所述标准答案和考生答案的分词向量的相似度,筛选出与所述标准答案的得分要点相匹配的考生答案中的关键词;通过计算考生答案中所有关键词对应的得分要点的分值比重,得到该试卷的非主观题得分。此外,为实现上述目的,本专利技术还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有基于文本相似度的非主观题阅卷程序,所述基于文本相似度的非主观题阅卷程序可被一个或者多个处理器执行,以实现如上所述的基于文本相似度的非主观题阅卷方法的步骤。本专利技术提出的基于文本相似度的非主观题阅卷方法、装置及计算机可读存储介质获取考试试卷中考生答案的文本内容;对特定领域的专有词语进行收集汇总,构建特定词汇的文本语料库;根据所述文本语料库,对所述考试试卷的标准答案和考生答案按照预先确定的分词规则分别进行分词操作,并产生所述标准答案和考生答案的分词向量;利用预设算法计算所述标准答案和考生答案的分词向量之间的相似度;及从所述分词向量中选择标准答案的得分要点,根据标准答案的得分要点并结合所述标准答案和考生答案的分词向量之间的相似度匹配相应的分值,对考生答案中每道非主观题进行智能打分。本专利技术能够实现试卷中非主观题的精确的智能化评分。附图说明图1为本专利技术一实施例提供的基于文本相似度的非主观题阅卷方法的流程示意图;图2为本专利技术一实施例提供的装置的内部结构示意图;图3为本专利技术一实施例提供的装置中基于文本相似度的非主观题阅卷程序的模块示意图。本专利技术目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本专利技术,并不用于限定本专利技术。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,所述“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。进一步地,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。另外,各个实施例之间的技术方案可本文档来自技高网...

【技术保护点】
1.一种基于文本相似度的非主观题阅卷方法,其特征在于,所述方法包括:对特定领域的专有词语进行收集汇总,构建特定词汇的文本语料库;获取考试试卷中考生答案的文本内容;根据所述文本语料库,对所述考试试卷的标准答案和考生答案的文本内容按照预先确定的分词规则分别进行分词操作,并产生所述标准答案和考生答案的分词向量;利用预设算法计算所述标准答案和考生答案的分词向量之间的相似度;及从所述分词向量中选择标准答案的得分要点,根据标准答案的得分要点并结合所述标准答案和考生答案的分词向量之间的相似度匹配相应的分值,对考生答案中每道非主观题进行智能打分。

【技术特征摘要】
1.一种基于文本相似度的非主观题阅卷方法,其特征在于,所述方法包括:对特定领域的专有词语进行收集汇总,构建特定词汇的文本语料库;获取考试试卷中考生答案的文本内容;根据所述文本语料库,对所述考试试卷的标准答案和考生答案的文本内容按照预先确定的分词规则分别进行分词操作,并产生所述标准答案和考生答案的分词向量;利用预设算法计算所述标准答案和考生答案的分词向量之间的相似度;及从所述分词向量中选择标准答案的得分要点,根据标准答案的得分要点并结合所述标准答案和考生答案的分词向量之间的相似度匹配相应的分值,对考生答案中每道非主观题进行智能打分。2.如权利要求1所述的基于文本相似度的非主观题阅卷方法,其特征在于,所述获取考试试卷中考生答案的文本内容包括:针对笔试方式的考试试卷,获取考试试卷的影像图像,识别出所述影像图像中非主观题部分问题的考生答案,并将所述考生答案转换为文本格式,形成所述考生答案的文本内容;及针对机答方式的考试试卷,直接获取所述考生的答案部分,形成所述考生答案的文本内容。3.如权利要求1所述的基于文本相似度的非主观题阅卷方法,其特征在于,所述预先确定的分词规则包括利用隐性马尔科夫模型和关键词抽取算法对标准答案和考生答案进行文本改写,并利用K-means算法和朴素贝叶斯分类器构建词袋模型,实现分词操作。4.如权利要求1所述的基于文本相似度的非主观题阅卷方法,其特征在于,所述预设算法为余弦相似度算法,公式为:其中,X、Y分别为标准答案和考生答案的分词向量,sim(X,Y)表示标准答案和考生答案的分词向量之间的余弦相似度、范围从-1到1。5.如权利要求1至4中任意一项所述的基于文本相似度的非主观题阅卷方法,其特征在于,所述从所述分词向量中选择标准答案的得分要点,根据标准答案的得分要点并结合所述标准答案和考生答案的分词向量之间的相似度匹配相应的分值,对考生答案中每道非主观题进行智能打分包括:预先设置标准答案的多个得分要点,并针对每个得分要点的重要程度设置各得分要点的分值比重;根据所述标准答案和考生答案的分词向量的相似度,筛选出与所述标准答案的得分要点相匹配的考生答案中的关键词;通过计算考生答案中所有关键词对应的得分要点的分值比重,得到该试卷...

【专利技术属性】
技术研发人员:金戈徐亮
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1