基于朴素贝叶斯、决策树和SVM混合模型的论文查重方法技术

技术编号：20866631 阅读：21 留言：0更新日期：2019-04-17 09:22

本发明专利技术提出一种基于朴素贝叶斯、决策树和SVM混合模型的论文查重方法。首先，运用查询关键词的出现频率建立关键词数据库。其次，对关键词进行分类。再者，利用决策树和朴素贝叶斯融合进行初步粗略筛选确定文章的抄袭类型。最后，在运用决策树分类时无法明确分类标准的情况下运用SVM学习，形成二分器。本专利旨在改进当前论文查重系统，提高系统对于论文查重的准确性。

全部详细技术资料下载

【技术实现步骤摘要】
基于朴素贝叶斯、决策树和SVM混合模型的论文查重方法
：本专利技术涉及一种文本审核方法，具体涉及基于朴素贝叶斯、决策树和SVM混合模型的论文查重方法。
技术介绍
：当前互联网十分发达，网络上有很多不同学者上传的研究成果。现在很多职位，例如教师、医生进行职称评选都要完成职称论文，高校毕业生毕业也需要完成毕业论文，然而其中有不少人违背道德底线，为了达到自己的个人目的抄袭别人的研究成果。为了打击学术造假和学术不端的行为，论文查重软件应运而生。但是这项技术还不够完备，误判的可能性很高。当前论文查重系统还存在如下几个问题：(1)对于文章中文字的查重技术已经很严格，但是对于文章中的中心思想的抄袭却很难辨认。(2)文章中不可避免地出现一些公式或一些知识类描述，这些不应该算为抄袭，但是现在很多查重系统却判为抄袭。(3)对于抄袭种类的区分不明显，导致无法判断文章作者的抄袭严重度。针对如上问题，亟需本领域技术人员解决。
技术实现思路
：针对上述问题，本专利技术提出一种论文查重方法。具体如下：1.基于朴素贝叶斯、决策树和SVM混合模型的论文查重方法，其特征在于，包括以下四个步骤：S1，运用查询关键词的出现频率建立关键词数据库；S2，对关键词进行分类；S3，利用决策树和朴素贝叶斯融合进行初步的粗筛选；S4，在运用决策树分类时无法明确分类标准情况下运用SVM学习，形成二分器。2.根据权利要求1所述的基于朴素贝叶斯、决策树和SVM混合模型的论文查重方法，其特征在于，步骤S2包括以下子步骤：S21，将关键词进行分类，分为创新类和知识类；S22，对于知识类的关键词的重复率可以宽限为40％，但...

【技术保护点】
1.基于朴素贝叶斯、决策树和SVM混合模型的论文查重方法，其特征在于，包括以下四个步骤：S1，运用查询关键词的出现频率建立关键词数据库；S2，对关键词进行分类；S3，利用决策树和朴素贝叶斯融合进行初步的粗筛选；S4，在运用决策树分类时无法明确分类标准情况下运用SVM学习，形成二分器。

【技术特征摘要】
1.基于朴素贝叶斯、决策树和SVM混合模型的论文查重方法，其特征在于，包括以下四个步骤：S1，运用查询关键词的出现频率建立关键词数据库；S2，对关键词进行分类；S3，利用决策树和朴素贝叶斯融合进行初步的粗筛选；S4，在运用决策树分类时无法明确分类标准情况下运用SVM学习，形成二分器。2.根据权利要求1所述的基于朴素贝叶斯、决策树和SVM混合模型的论文查重方法，其特征在于，步骤S2包括以下子步骤：S21，将关键词进行分类，分为创新类和知识类；S22，对于知识类的关键词的重复率可以宽限为40％，但是对于创新型关键词容忍率要低一些，为5％；这样可以防止查重文章中对于一些普遍知识的运用而造成的误判。3.根据权利要求1所述的基于朴素贝叶斯、决策树和SVM混合模型的论文查重方法，其特征在于，步骤S3包括以下子步骤：S31：通过检测图表、数据、关键词、中心思想提取出关键指标；S32：选择spearman秩相关系数来确定指标两两之间的相关性，并对筛选出的相关性强的指标采用主成分分析法进行降维，重新组合为一组新的相互无关的综合变量；S33：选取文章的开头、中间段四段、结尾段六个部分，采用层次分析法分析出权重，加权综合后得到六个部分的综合值；中间段的提取方法为：若中间正文部分核心观点数大于四个，则通过每个核心观点中字数最多的段，将其字数从大到小排列后，选取最高的四个段；若核心观点数等于四个，则直接选取这四个观点中的字数最多的段；若小于四个则选取正文中所有段落字数排列后的字数最多的前四位段落；S34：将抄袭类型集表示为因变量，指标属性集表示为自变量，以段落指标属性的六部位综合值和其相应的抄袭类型为训练样本，对训练样本通过递归分割的方式建立CART决策树；S35：分别统计CART决策树和贝叶斯模型在训练过程中分类正确的训练样本个数，除以训练样本总数即为两算法的分类准确度ACART和ANB；进而计算决...

【专利技术属性】
技术研发人员：廖勇，张笑颜，
申请(专利权)人：重庆大学，
类型：发明
国别省市：重庆,50

全部详细技术资料下载我是这个专利的主人