【技术实现步骤摘要】
一种作文离题检测方法
本公开涉及计算机
,尤其涉及一种作文离题检测方法。
技术介绍
在中小学作文评阅中,切题是作文质量的基础要求,也是一篇作文的关键考查点。作文切题是指一篇作文整体围绕一个主题开展,除了明确题目的范围和要求之外,还要求整篇作文的主题贯穿全文,即作文所有的内容是与题目保持一致性的。因此,需要对中小学作文进行离题检测,这样可以检测写作者出现随便组织语言、盲目凑字的情况,还可以考查整篇作文的相关性,从而辅助作文评阅。但是,目前有关离题检测的方法常借助一些模型挖掘文本内容方面的信息,主要是对文本间或者文本与题目间进行相似度的比对。这种基于文本相似度的研究方法,主要是从作文内容本身考虑的,可以利用作文文本语义方面的信息进行离题检测研究,但是缺点是利用文本相似度计算阈值严重依赖作文特征的提取。基于上述,现有的方案中对于作文离题检测存在上述缺陷。上述缺陷是本领域技术人员期望克服的。
技术实现思路
(一)要解决的技术问题为了解决现有技术的上述问题,本公开提供一种作文离题检测方法,其可以对作文进行文本和语义方面的离题检测,为各个话题作文动态计算最佳阈值。(二)技术 ...
【技术保护点】
1.一种作文离题检测方法,其特征在于,其包括:对作文集进行主题模型训练,得到作文的Biterm‑LDA主题模型,并对文档集进行Doc2vec模型训练,得到Doc2vec文档向量模型;将所述Biterm‑LDA主题模型与所述Doc2vec文档向量模型的文本表示进行组合,得到组合特征;对作文的所述组合特征基于孪生网络的多层感知机进行降维和特征优化;对降维和特征优化后的话题作文,分为切题作文和离题作文,对所述切题作文中的一部分构建话题类中心,并根据所述话题类中心对所述切题作文中的剩余部分和所述离题作文分别计算,得到针对同一话题的一组阈值;根据所述一组阈值利用ROC曲线进行筛选,得到最佳阈值。
【技术特征摘要】
1.一种作文离题检测方法,其特征在于,其包括:对作文集进行主题模型训练,得到作文的Biterm-LDA主题模型,并对文档集进行Doc2vec模型训练,得到Doc2vec文档向量模型;将所述Biterm-LDA主题模型与所述Doc2vec文档向量模型的文本表示进行组合,得到组合特征;对作文的所述组合特征基于孪生网络的多层感知机进行降维和特征优化;对降维和特征优化后的话题作文,分为切题作文和离题作文,对所述切题作文中的一部分构建话题类中心,并根据所述话题类中心对所述切题作文中的剩余部分和所述离题作文分别计算,得到针对同一话题的一组阈值;根据所述一组阈值利用ROC曲线进行筛选,得到最佳阈值。2.如权利要求1所述的作文离题检测方法,其特征在于,所述对作文集进行主题模型训练,得到作文的Biterm-LDA主题模型之前,还包括:对收集到的作文集进行预处理,得到作文集;对所述作文集构建词库和词对库。3.如权利要求1所述的作文离题检测方法,其特征在于,所述对作文集进行主题模型训练,得到作文的Biterm-LDA主题模型包括:对所述作文集采用多个不同的主题模型分别训练,得到训练结果;根据所述多个不同主题模型的训练结果选取困惑度值最小的Biterm-LDA主题模型作为作文主题模型,并利用Biterm-LDA主题模型得到作文的主题特征表示。4.如权利要求1所述的作文离题检测方法,其特征在于,所述对文档集进行Doc2vec模型训练,得到Doc2vec文档向量模型包括:对所述文档集Doc2vec进行训练,得到Doc2vec模型;对所述作文采用所述Doc2vec模型从语义方面对作文特征进行扩展,得到所述Doc2vec文档向量表示。5.如权利要求1所述的作文离题检测方法,其特征在于,所述将所述Biterm-LDA主题模型与所述Doc2vec文档向量模型的文本表示进行组合,得到组合特征包括:基于所述Biterm-LDA主题模型对作文的文本表示为B_LDA(di);基于所述Doc2vec文档向量模型对作文的文本表示为Doc2(di);得到的...
【专利技术属性】
技术研发人员:刘杰,周建设,张凯,史金生,骆力明,马晓丽,
申请(专利权)人:首都师范大学,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。