当前位置: 首页 > 专利查询>重庆大学专利>正文

基于朴素贝叶斯、决策树和SVM混合模型的论文查重方法技术

技术编号:20866631 阅读:21 留言:0更新日期:2019-04-17 09:22
本发明专利技术提出一种基于朴素贝叶斯、决策树和SVM混合模型的论文查重方法。首先,运用查询关键词的出现频率建立关键词数据库。其次,对关键词进行分类。再者,利用决策树和朴素贝叶斯融合进行初步粗略筛选确定文章的抄袭类型。最后,在运用决策树分类时无法明确分类标准的情况下运用SVM学习,形成二分器。本专利旨在改进当前论文查重系统,提高系统对于论文查重的准确性。

【技术实现步骤摘要】
基于朴素贝叶斯、决策树和SVM混合模型的论文查重方法
:本专利技术涉及一种文本审核方法,具体涉及基于朴素贝叶斯、决策树和SVM混合模型的论文查重方法。
技术介绍
:当前互联网十分发达,网络上有很多不同学者上传的研究成果。现在很多职位,例如教师、医生进行职称评选都要完成职称论文,高校毕业生毕业也需要完成毕业论文,然而其中有不少人违背道德底线,为了达到自己的个人目的抄袭别人的研究成果。为了打击学术造假和学术不端的行为,论文查重软件应运而生。但是这项技术还不够完备,误判的可能性很高。当前论文查重系统还存在如下几个问题:(1)对于文章中文字的查重技术已经很严格,但是对于文章中的中心思想的抄袭却很难辨认。(2)文章中不可避免地出现一些公式或一些知识类描述,这些不应该算为抄袭,但是现在很多查重系统却判为抄袭。(3)对于抄袭种类的区分不明显,导致无法判断文章作者的抄袭严重度。针对如上问题,亟需本领域技术人员解决。
技术实现思路
:针对上述问题,本专利技术提出一种论文查重方法。具体如下:1.基于朴素贝叶斯、决策树和SVM混合模型的论文查重方法,其特征在于,包括以下四个步骤:S1,运用查询关键词的出现频率建立关键词数据库;S2,对关键词进行分类;S3,利用决策树和朴素贝叶斯融合进行初步的粗筛选;S4,在运用决策树分类时无法明确分类标准情况下运用SVM学习,形成二分器。2.根据权利要求1所述的基于朴素贝叶斯、决策树和SVM混合模型的论文查重方法,其特征在于,步骤S2包括以下子步骤:S21,将关键词进行分类,分为创新类和知识类;S22,对于知识类的关键词的重复率可以宽限为40%,但是对于创新型关键词容忍率要低一些,为5%;这样可以防止查重文章中对于一些普遍知识的运用而造成的误判。3.根据权利要求1所述的基于朴素贝叶斯、决策树和SVM混合模型的论文查重方法,其特征在于,步骤S3包括以下子步骤:S31:通过检测图表、数据、关键词、中心思想提取出关键指标;S32:选择spearman秩相关系数来确定指标两两之间的相关性,并对筛选出的相关性强的指标采用主成分分析法进行降维,重新组合为一组新的相互无关的综合变量;S33:选取文章的开头、中间段四段、结尾段六个部分,采用层次分析法分析出权重,加权综合后得到六个部分的综合值;中间段的提取方法为:若中间正文部分核心观点数大于四个,则通过每个核心观点中字数最多的段,将其字数从大到小排列后,选取最高的四个段;若核心观点数等于四个,则直接选取这四个观点中的字数最多的段;若小于四个则选取正文中所有段落字数排列后的字数最多的前四位段落;S34:将抄袭类型集表示为因变量,指标属性集表示为自变量,以段落指标属性的六部位综合值和其相应的抄袭类型为训练样本,对训练样本通过递归分割的方式建立CART决策树;S35:分别统计CART决策树和贝叶斯模型在训练过程中分类正确的训练样本个数,除以训练样本总数即为两算法的分类准确度ACART和ANB;进而计算决策树模型分别对各类抄袭的训练准确度b(k),k=1,2,…,m,m为全部的抄袭类型总数;定义决策树模型在输出抄袭类型为Yt时对各类抄袭的后验概率为将其与贝叶斯模型输出的后验概率P(Yk|X)NB加权综合,得,此时,得到的最大概率所对应的抄袭类型即为最终的分类输出结果。4.根据权利要求1所述的一种基于朴素贝叶斯、决策树和SVM混合模型的论文查重方法,其特征在于,步骤S4包括以下子步骤:S41:生成训练样本集,主动选择训练样本;即在训练各种文章上,圈定C个类别的训练文章集I1,I2,...,IC,采用均匀抽样的方法分别对I1,I2,...,IC进行抽样,生成训练样本集I′1,I′2,...,I′C,各样本集的文章数量相等.将文章的抄袭概率作为样本向量;S42:结点分类器的类划分方案如下:假设结点分类器类划分的正反例类集合分别为S1和S2,N1和N2分别为S1和S2中的类别个数,C=N1+N2为该结点需划分的总类别数,Xj表示第j类样本集,j=1,2,...,C,Xj的样本个数为nj,样本向量为x;1)计算各类的中心2)设i为类划分方案号,对于所有划分方案,按照步骤3)、4)计算3)计算正例和反例类集合S1和S2的中心:计算S1和S2的中心之间的欧氏距离:diS1S2=||e1i-e2i||4)计算S1中各类的中心到S1的中心的平均距离以及S2中各类的中心到S2的中心的平均距离:5)根据下式计算di,取最大值的方案即为所求方案di=dS1S2i+dS1i+dS2i按照上面介绍的结点分类器类划分方法,自顶向下地设计各结点分类器的类划分方案,最终建立完整的决策树;S43:利用训练样本集I1′,I2′,...,IC′,对各个结点分类器进行训练,最终形成完整的SVM决策树分类器;S44:以待分类图像的全部像素作为测试样本集,用SVM决策树分类器进行测试分类,把分类结果映射回图像实现图像分类。本专利技术的有益效果是:解决了当前论文查重系统中的部分问题,细化了抄袭的具体情况。利用关键词分类和关键词重复率查询降低论文查重中可能造成的对于知识类型重复的误判,利用朴素贝叶斯与决策树算法的融合建立CART决策树来判断论文的抄袭类型,对于不能明确分类的抄袭类型,利用SVM和决策树算法融合建立SVM决策树分类器进行分类,进一步分析抄袭程度。附图说明本专利技术的附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:图1是本专利技术总体流程图。具体实施方式下面详细描述本专利技术的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本专利技术,而不能理解为对本专利技术的限制。在本专利技术的描述中,需要理解的是,术语“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本专利技术和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本专利技术的限制。本专利技术提出一种基于朴素贝叶斯、决策树和SVM混合模型的论文查重方法。通过对于朴素贝叶斯和决策树算法的融合对论文抄袭情况进行粗筛选确定抄袭类型,然后通过决策树和SVM算法融合进一步对于无法分类的抄袭类型进行分类。结合附图1对本专利技术进行详细说明,主要包括以下步骤:步骤1:开始。步骤2:提取关键词,检测关键词重复率。运用查询关键词的出现频率建立关键词数据库,将关键词进行分类,分为创新类和知识类。对于知识类的关键词的重复率可以宽限为40%,但是对于创新型关键词容忍率要低一些,为5%;这样可以防止查重文章中对于一些普遍知识的运用而造成的误判。步骤3:建立CART决策树。通过检测图表、数据、关键词、中心思想提取出关键指标。选择spearman秩相关系数来确定指标两两之间的相关性,并对筛选出的相关性强的指标采用主成分分析法进行降维,重新组合为一组新的相互无关的综合变量。选取文章的开头、中间段四段、结尾段六个部分,采用层次分析法分析出权重,加权综合后得到六个部分的综合值;中间段的提取方法为:若中间本文档来自技高网...

【技术保护点】
1.基于朴素贝叶斯、决策树和SVM混合模型的论文查重方法,其特征在于,包括以下四个步骤:S1,运用查询关键词的出现频率建立关键词数据库;S2,对关键词进行分类;S3,利用决策树和朴素贝叶斯融合进行初步的粗筛选;S4,在运用决策树分类时无法明确分类标准情况下运用SVM学习,形成二分器。

【技术特征摘要】
1.基于朴素贝叶斯、决策树和SVM混合模型的论文查重方法,其特征在于,包括以下四个步骤:S1,运用查询关键词的出现频率建立关键词数据库;S2,对关键词进行分类;S3,利用决策树和朴素贝叶斯融合进行初步的粗筛选;S4,在运用决策树分类时无法明确分类标准情况下运用SVM学习,形成二分器。2.根据权利要求1所述的基于朴素贝叶斯、决策树和SVM混合模型的论文查重方法,其特征在于,步骤S2包括以下子步骤:S21,将关键词进行分类,分为创新类和知识类;S22,对于知识类的关键词的重复率可以宽限为40%,但是对于创新型关键词容忍率要低一些,为5%;这样可以防止查重文章中对于一些普遍知识的运用而造成的误判。3.根据权利要求1所述的基于朴素贝叶斯、决策树和SVM混合模型的论文查重方法,其特征在于,步骤S3包括以下子步骤:S31:通过检测图表、数据、关键词、中心思想提取出关键指标;S32:选择spearman秩相关系数来确定指标两两之间的相关性,并对筛选出的相关性强的指标采用主成分分析法进行降维,重新组合为一组新的相互无关的综合变量;S33:选取文章的开头、中间段四段、结尾段六个部分,采用层次分析法分析出权重,加权综合后得到六个部分的综合值;中间段的提取方法为:若中间正文部分核心观点数大于四个,则通过每个核心观点中字数最多的段,将其字数从大到小排列后,选取最高的四个段;若核心观点数等于四个,则直接选取这四个观点中的字数最多的段;若小于四个则选取正文中所有段落字数排列后的字数最多的前四位段落;S34:将抄袭类型集表示为因变量,指标属性集表示为自变量,以段落指标属性的六部位综合值和其相应的抄袭类型为训练样本,对训练样本通过递归分割的方式建立CART决策树;S35:分别统计CART决策树和贝叶斯模型在训练过程中分类正确的训练样本个数,除以训练样本总数即为两算法的分类准确度ACART和ANB;进而计算决...

【专利技术属性】
技术研发人员:廖勇张笑颜
申请(专利权)人:重庆大学
类型:发明
国别省市:重庆,50

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1