The invention discloses a system and the evaluation method. The method includes: obtaining the text to score the paper; the text feature extraction score, the score features include: lexical features and / or literary characteristics, including any one or more features: characteristics, structure characteristics, the conception of vocabulary level the semantic features of the text; scoring features and pre built scoring model based on the score. Because of the scoring features include: lexical features and / or literary characteristics, also includes the following features: any one or more of the text structure conception features, lexical semantic features, these features make the invention can inspect the quality to score from the multiple dimensions of global and local: structure, theme, style vocabulary, etc., so that the invention can realize the automatic scoring of the article.
【技术实现步骤摘要】
一种文章评分方法及系统
本专利技术涉及教育信息化和自然语言理解领域,具体涉及一种文章评分方法及系统。
技术介绍
国内的基础教育阶段,学生学习状况主要依靠各种类型的考试进行考核,考试试卷主要依靠人工进行阅卷。但是,人工阅卷存在人力消耗大、主观性强等问题。随着计算机科学与技术的发展,自动化信息处理能力和水平也得到了显著的提高。自动阅卷系统的出现将人从繁重的机械劳动中解放出来。机器阅卷不仅有利于对学生的成绩做出客观公正的评价,而且利于对阅卷的结果进行保存、统计和查询。但主观部分,例如作文的阅卷还只能依靠人工阅卷,并且为了尽量减少不同阅卷老师的主观差异带来的评分影响,还需要对阅卷老师进行各类培训以统一标准,还可能需要多轮次多人综合评价等,费时费力,且客观性难以得到保证。此外,当前处于一个信息大爆炸的时代,每天都有海量的文章、评论等充斥在各种媒体终端,如何选取出高质量的内容以供人们阅读,也成为亟待解决的问题。
技术实现思路
本专利技术实施例提供一种文章评分方法及系统,以解决现有技术中文章只能通过人工进行评价的问题。为此,本专利技术实施例提供如下技术方案:一种文章评分方法,包括: ...
【技术保护点】
一种文章评分方法,其特征在于,包括:获取待评分文章的文本;提取所述文本的评分特征,所述评分特征包括:词汇特征和/或文采特征,还包括以下任意一种或多种特征:立意特征、篇章结构特征、词汇级语义特征;基于所述文本的评分特征及预先构建的评分模型,得到文章的评分。
【技术特征摘要】
1.一种文章评分方法,其特征在于,包括:获取待评分文章的文本;提取所述文本的评分特征,所述评分特征包括:词汇特征和/或文采特征,还包括以下任意一种或多种特征:立意特征、篇章结构特征、词汇级语义特征;基于所述文本的评分特征及预先构建的评分模型,得到文章的评分。2.根据权利要求1所述的方法,其特征在于,所述待评分文章为考试作文,所述评分特征还包括:作文长度特征;所述待评分文章包含手写内容,所述评分特征还包括:书写整洁度特征和/或字体工整度特征。3.根据权利要求1所述的方法,其特征在于,所述词汇特征包括以下任意一种或多种特征:不重复词汇的数量特征、成语数量特征和高级词汇数量特征;所述文采特征包括以下任意一种或多种特征:修辞手法特征和表达特征;所述立意特征包括以下任意一种或多种特征:中心思想集中度特征和主题得分特征;所述篇章结构特征包括以下任意一种或多种特征:连贯性分布特征、词汇链特征、词向量特征和句子长度特征。4.根据权利要求3所述的方法,其特征在于,所述修辞手法特征包括以下任意一种或多种特征:排比特征、引用特征、比喻特征和拟人特征。5.根据权利要求2所述的方法,其特征在于,所述书写整洁度特征包括以下任意一种或多种:插入行特征、涂抹特征和粘连特征;提取所述字体工整度特征包括:对所述手写内容进行单字切分,对各单字进行笔画提取,根据各单字的笔画及预设的标准笔画提取字体工整度特征;提取所述作文长度特征包括:根据预设的作文长度阈值提取作文长度特征。6.根据权利要求3所述的方法,其特征在于,所述不重复词汇的数量特征为:待评分文章中包含的不重复词汇的数量;所述成语数量特征为:待评分文章中包含的成语数量;所述高级词汇数量特征为:待评分文章中包含的高级词汇数量,所述高级词汇包括以下任意一种或多种:文言词汇、生僻词语、专业术语;所述修辞手法特征包括以下任意一种或多种:使用修辞手法的数量、种类及使用修辞手法的句子在文章中的占比;提取所述表达特征包括:预先构建分类模型,将待评分文章中句子输入所述分类模型,得到表达优美度;所述中心思想集中度特征为:待评分文章属于各预设主题的概率的集中度;所述主题得分特征包括:待评分文章的主题分布与定标高分文章的主题分布的相似度;所述连贯性分布特征为:待评分文章中连接性词语的使用数量;所述词汇链特征为:待评分文章中是否存在全局链或局部链;所述词向量特征为:待评分文章中所有词的词向量;所述句子长度特征为:待评分文章中所有句子的长度。7.根据权利要求4所述的方法,其特征在于,所述排比特征包括:使用排比的总数量、使用排比的句子长度、使用不同排比的数量;所述引用特征包括:引用的次数、引用的主题是否和文章主题匹配、引用的出处和引用的作者信息;所述比喻特征包括:使用比喻的总数量、使用比喻的句子长度、使用不同比喻的数量;所述拟人特征包括:使用拟人的总数量、使用...
【专利技术属性】
技术研发人员:付瑞吉,施亮亮,巩捷甫,王士进,胡国平,宋巍,秦兵,刘挺,
申请(专利权)人:科大讯飞股份有限公司,
类型:发明
国别省市:安徽,34
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。