离题作文检测方法、装置和终端设备制造方法及图纸

技术编号:16472524 阅读:29 留言:0更新日期:2017-10-29 00:13
本申请提出一种离题作文检测方法、装置和终端设备,该离题作文检测方法包括:接收待检测作文,所述待检测作文包括题目和正文文本;分别对所述题目和所述正文文本进行分词,并分别对进行分词后获得的所述题目和所述正文文本中的词进行向量化,得到所述待检测作文的词向量;根据预先构建的通用主题词扩展表和所述待检测作文的词向量计算所述待检测作文的离题度;如果所述待检测作文的离题度小于或等于预设的阈值,则通过预先构建的离题作文判定模型确定所述待检测作文是否离题。本申请在待检测作文的离题度小于或等于预设的阈值时,从待检测作文的语义角度再次进行离题检测,从而大大提高了离题作文检测的准确度。

Method, device and terminal device for off line composition detection

The invention provides a composition point detection method and device and terminal equipment, including the subject composition detection method: receiving detection composition, the composition including text topic and text detection respectively; the segmentation of the title and the text, and for the problems in segmentation and the text in the text word to word vector quantization, the detected composition; according to the computation of the detected composition general theme words pre built expansion word vector table and the detection of the composition of the digression; if the threshold is less than or equal to the preset point of the detected composition then, through the pre built decision model to determine the composition of a composition to be detected is irrelevant. When the irrelevant degree of the composition to be tested is less than or equal to the preset threshold value, the topic is further detected from the semantic angle of the composition to be tested, thus greatly improving the accuracy of the digression composition examination.

【技术实现步骤摘要】
离题作文检测方法、装置和终端设备
本申请涉及自然语言处理
,尤其涉及一种离题作文检测方法、装置和终端设备。
技术介绍
随着人工智能相关技术的日益成熟,越来越多的工作被机器取代,如学生考试时的阅卷工作,从而大大降低了老师批改试卷时的工作量,提高了工作效率;机器阅卷时,对于客观题比较容易判断,而对于主观题一般都会涉及语义理解,则较难判断,尤其是对于作文的判断更是难上加难;判断一篇作文的质量需要从多方面进行分析,如作文的篇章结构、作文中的修辞、作文中的优美句子、作文是否离题等;其中,判断作文是否离题是作文批改中需要分析的重要因素,一篇离题作文即使语句写得再好,也很难得高分;因此,如何判断作文是否离题对于机器自动阅卷具有重要意义;现在一般采用构建主题词扩展表对作文正文进行主题划分的方法,计算待检测作文的题目与正文的相似度来进行离题检测,但是这种方法并未考虑作文中词与词之间的语义关系,而是简单的将待检测作文作为一系列无序词语的组合,根据词与词之间的共现规律进行离题作文检测,离题作文的检测准确度较低。
技术实现思路
本申请的目的旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本申请的第一个目的在于提出一种离题作文检测方法。该方法在待检测作文的离题度小于或等于预设的阈值时,从待检测作文的语义角度再次进行离题检测,从而大大提高了离题作文检测的准确度。本申请的第二个目的在于提出一种离题作文检测装置。本申请的第三个目的在于提出一种终端设备。为了实现上述目的,本申请第一方面实施例的离题作文检测方法,包括:接收待检测作文,所述待检测作文包括题目和正文文本;分别对所述题目和所述正文文本进行分词,并分别对进行分词后获得的所述题目和所述正文文本中的词进行向量化,得到所述待检测作文的词向量;根据预先构建的通用主题词扩展表和所述待检测作文的词向量计算所述待检测作文的离题度;如果所述待检测作文的离题度小于或等于预设的阈值,则通过预先构建的离题作文判定模型确定所述待检测作文是否离题。本申请实施例的离题作文检测方法中,接收待检测作文之后,分别对上述待检测作文的题目和正文文本进行分词,并分别对进行分词后获得的上述题目和上述正文文本中的词进行向量化,得到上述待检测作文的词向量,然后根据预先构建的通用主题词扩展表和上述待检测作文的词向量计算上述待检测作文的离题度,如果上述待检测作文的离题度小于或等于预设的阈值,则通过预先构建的离题作文判定模型确定上述待检测作文是否离题,也就是说,在待检测作文的离题度小于或等于预设的阈值时,本申请实施例的离题作文检测方法会从待检测作文的语义角度再次进行离题检测,从而大大提高了离题作文检测的准确度。为了实现上述目的,本申请第二方面实施例的离题作文检测装置,包括:接收模块,用于接收待检测作文,所述待检测作文包括题目和正文文本;分词模块,用于分别对所述题目和所述正文文本进行分词;向量化模块,用于分别对所述分词模块进行分词后获得的所述题目和所述正文文本中的词进行向量化,得到所述待检测作文的词向量;计算模块,用于根据预先构建的通用主题词扩展表和所述向量化模块得到的待检测作文的词向量计算所述待检测作文的离题度;确定模块,用于当所述计算模块计算的所述待检测作文的离题度小于或等于预设的阈值时,通过预先构建的离题作文判定模型确定所述待检测作文是否离题。本申请实施例的离题作文检测装置中,接收模块接收待检测作文之后,分词模块分别对上述待检测作文的题目和正文文本进行分词,然后向量化模块分别对进行分词后获得的上述题目和上述正文文本中的词进行向量化,得到上述待检测作文的词向量,然后计算模块根据预先构建的通用主题词扩展表和上述待检测作文的词向量计算上述待检测作文的离题度,如果上述待检测作文的离题度小于或等于预设的阈值,则确定模块通过预先构建的离题作文判定模型确定上述待检测作文是否离题,也就是说,在待检测作文的离题度小于或等于预设的阈值时,本申请实施例的离题作文检测装置会从待检测作文的语义角度再次进行离题检测,从而大大提高了离题作文检测的准确度。为了实现上述目的,本申请第三方面实施例的终端设备,包括:壳体、处理器、存储器、接收器、电路板和电源电路,其中,所述电路板安置在所述壳体围成的空间内部,所述处理器、所述存储器和所述接收器设置在所述电路板上;所述电源电路,用于为所述终端设备的各个电路或器件供电;所述存储器用于存储可执行程序代码;所述接收器,用于接收待检测作文,所述待检测作文包括题目和正文文本;所述处理器通过读取所述存储器中存储的可执行程序代码来运行与可执行程序代码对应的程序,以用于执行以下步骤:分别对所述题目和所述正文文本进行分词,并分别对进行分词后获得的所述题目和所述正文文本中的词进行向量化,得到所述待检测作文的词向量;根据预先构建的通用主题词扩展表和所述待检测作文的词向量计算所述待检测作文的离题度;如果所述待检测作文的离题度小于或等于预设的阈值,则通过预先构建的离题作文判定模型确定所述待检测作文是否离题。本申请实施例的终端设备中,接收器接收待检测作文之后,处理器分别对上述待检测作文的题目和正文文本进行分词,并分别对进行分词后获得的上述题目和上述正文文本中的词进行向量化,得到上述待检测作文的词向量,然后根据预先构建的通用主题词扩展表和上述待检测作文的词向量计算上述待检测作文的离题度,如果上述待检测作文的离题度小于或等于预设的阈值,则通过预先构建的离题作文判定模型确定上述待检测作文是否离题,也就是说,在待检测作文的离题度小于或等于预设的阈值时,本申请实施例的终端设备会从待检测作文的语义角度再次进行离题检测,从而大大提高了离题作文检测的准确度。本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。附图说明本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:图1为本申请离题作文检测方法一个实施例的流程图;图2为本申请离题作文检测方法另一个实施例的流程图;图3为本申请离题作文检测方法再一个实施例的流程图;图4为本申请离题作文检测方法中的离题作文判定模型一个实施例的示意图;图5为本申请离题作文检测方法中构建离题作文判定模型一个实施例的流程图;图6为本申请离题作文检测装置一个实施例的结构示意图;图7为本申请离题作文检测装置另一个实施例的结构示意图;图8为本申请终端设备一个实施例的流程图。具体实施方式下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能理解为对本申请的限制。相反,本申请的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。图1为本申请离题作文检测方法一个实施例的流程图,如图1所示,上述离题作文检测方法可以包括:步骤101,接收待检测作文,上述待检测作文包括题目和正文文本。其中,上述待检测作文一般为学生考试时写的作文,当然,也可以为根据一个题目,作者写的文章,对此本实施例不作限定。步骤102,分别对上述题目和上述正文文本进行分词,并分别对进行分词后获得的上述题目和本文档来自技高网...
离题作文检测方法、装置和终端设备

【技术保护点】
一种离题作文检测方法,其特征在于,包括:接收待检测作文,所述待检测作文包括题目和正文文本;分别对所述题目和所述正文文本进行分词,并分别对进行分词后获得的所述题目和所述正文文本中的词进行向量化,得到所述待检测作文的词向量;根据预先构建的通用主题词扩展表和所述待检测作文的词向量计算所述待检测作文的离题度;如果所述待检测作文的离题度小于或等于预设的阈值,则通过预先构建的离题作文判定模型确定所述待检测作文是否离题。

【技术特征摘要】
1.一种离题作文检测方法,其特征在于,包括:接收待检测作文,所述待检测作文包括题目和正文文本;分别对所述题目和所述正文文本进行分词,并分别对进行分词后获得的所述题目和所述正文文本中的词进行向量化,得到所述待检测作文的词向量;根据预先构建的通用主题词扩展表和所述待检测作文的词向量计算所述待检测作文的离题度;如果所述待检测作文的离题度小于或等于预设的阈值,则通过预先构建的离题作文判定模型确定所述待检测作文是否离题。2.根据权利要求1所述的方法,其特征在于,所述根据预先构建的通用主题词扩展表和所述待检测作文的词向量计算所述待检测作文的离题度之后,还包括:如果所述待检测作文的离题度大于预设的阈值,则确定所述待检测作文为离题作文。3.根据权利要求1所述的方法,其特征在于,所述根据预先构建的通用主题词扩展表和所述待检测作文的词向量计算所述待检测作文的离题度包括:收集文本数据构建通用主题词扩展表;根据所述通用主题词扩展表,构建所述待检测作文题目的主题词扩展表;根据所述待检测作文题目的主题词扩展表和所述待检测作文的词向量计算所述待检测作文的离题度。4.根据权利要求3所述的方法,其特征在于,所述收集文本数据构建通用主题词扩展表包括:收集文本数据,作为主题词扩展语料库;对所述主题词扩展语料库中的文本数据进行分词后,将得到的每个分词向量化;依次对所述主题词扩展语料库中的每个文档进行主题划分,每个文档被划分为至少一个主题,每个主题包含文档中的至少一个词;查找所述主题词扩展语料库中的每个词在文档中的主题,根据每个词所在的主题,对每个词进行主题词的扩展,得到所述文本数据中每个词的主题词扩展表。5.根据权利要求3所述的方法,其特征在于,所述根据所述通用主题词扩展表,构建所述待检测作文题目的主题词扩展表包括:去除所述待检测作文题目中的停用词;根据所述通用主题词扩展表查找所述待检测作文题目中去除停用词之后的每个词的主题词;依次将所述待检测作文题目中的每个词作为当前词,将所述当前词在所述通用主题词扩展表中查找到的主题词作为所述当前词扩展后的主题词,获得所述待检测作文题目的主题词扩展表。6.根据权利要求3所述的方法,其特征在于,所述根据所述待检测作文题目的主题词扩展表和所述待检测作文的词向量计算所述待检测作文的离题度包括:依次遍历待检测作文的正文文本中的词向量,统计所述待检测作文的正文文本中的词向量出现在所述待检测作文题目的主题词扩展表中的主题词的总数;计算出现在所述主题词扩展表中的主题词的总数与所述待检测作文的正文文本中的词向量的总数的比值;根据所述比值确定所述待检测作文的离题度。7.根据权利要求1所述的方法,其特征在于,所述通过预先构建的离题作文判定模型确定所述待检测作文是否离题包括:将所述待检测作文的题目和正文文本中每个词的词向量分别输入所述离题作文判定模型;分别对输入的每个词向量进行特征变换,变换后的特征包含每个词向量的历史信息和未来信息;将对每个词向量进行特征变换后获得的历史信息和未来信息合并,分别获得所述待检测作文的题目和正文文本中每个词向量的特征词向量;根据所述待检测作文的题目和正文文本中每个词向量的特征词向量计算所述待检测作文的正文文本与题目的相关度;根据所述相关度确定所述待检测作文是否离题。8.根据权利要求1或7所述的方法,其特征在于,所述通过预先构建的离题作文判定模型确定所述待检测作文是否离题之前,还包括:构建离题作文判定模型。9.根据权利要求8所述的方法,其特征在于,所述构建离题作文判定模型包括:收集作文文本数据,并为每篇作文设置离题标注信息;分别对每篇作文的题目及正文文本进行分词,并对分词获得的每个词进行向量化,获得每篇作文的题目及正文文本中每个词的词向量;根据每篇作文的题目及正文文本中每个词的词向量,以及每篇作文的离题标注信息构建所述离题作文判定模型。10.一种离题作文检测装置,其特征在于,包括:接收模块,用于接收待检测作文,所述待检测作文包括题目和正文文本;分词模块,用于分别对所述题目和所述正文文本进行分词;向量化模块,用于分别对所述分词模块进行分词后获得的所述题目和所述正文文本中的词进行向量化,得到所述待检测作文的词向量;计算模块,用于根据预先构建的通用主题词扩展表和所述向量化模块得到的待检测作文的词向量计算所述待检测作文的离题度;确定模块,用于当所述计算模块计算的所述待检测作文的离题度小于或等于预设的阈值时,通过预先构建的离题作文判定模型确定所述待检...

【专利技术属性】
技术研发人员:巩捷甫付瑞吉宋巍王士进胡国平秦兵刘挺
申请(专利权)人:科大讯飞股份有限公司
类型:发明
国别省市:安徽,34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1