基于排序的抄袭检测文本匹配方法组成比例

技术编号:18894505 阅读:28 留言:0更新日期:2018-09-08 10:58
基于排序的抄袭检测文本匹配方法,涉及抄袭检测技术领域。本发明专利技术为了实现高模糊抄袭的检测,解决基于启发式方法依赖专家经验、无法融合抄袭检测中各类有效的特征的问题。将抄袭文本的匹配形式化为一个排序任务,给出一个可疑文本片段,该方法应用基于序对的排序学习方法获得源文档中该片段最可能抄袭的片段。本发明专利技术引入机器翻译的评价指标METEOR来捕获词汇相似和语义相似。应用PAN2012和PAN 2013的抄袭检测数据集对该方法进行了评价,并与PAN2013、2013和2014评测中获得最好性能的方法进行了比较。在高模糊抄袭和总结抄袭子集上,本发明专利技术相对基线方法在评价指标Plagdet上分别提高了22%和43%。本发明专利技术方法时间效率也优于基线方法。

Text matching method based on sorting for plagiarism detection

【技术实现步骤摘要】
基于排序的抄袭检测文本匹配方法
本专利技术涉及一种抄袭检测文本匹配方法,涉及抄袭检测

技术介绍
抄袭文本匹配是抄袭检测的核心任务,该任务致力于获取可疑文档和它抄袭的源文档匹配的抄袭片段(Potthastetal.,2012a;2013a;2014)。研究者针对抄袭文本匹配开展了大量的工作,其中大部分研究基于启发式的方法,应用词或者字符表示可疑文档和抄袭源文档,然后通过计算可疑文档和源文档片段中重叠的字符、单词,或通过文本向量的相似来识别确切的或可能的抄袭匹配。这类方法在低模糊抄袭检测上取得了良好的性能,而在高模糊抄袭检测上的性能却不令人满意。例如,以PlagDet得分为评价指标(PAN定义的抄袭检测的主要评价指标,最高分为1.0),在抄袭检测评测PAN@CLEF2012的无模糊抄袭检测子集上最高的PlagDet为0.9451,在PAN@CLEF2012的低模糊抄袭检测子集上,最高的PlagDet为0.8441。然而,与简单的复制和粘贴源文挡的无模糊抄袭或者简单的修改源文档的低模糊抄袭不同,在高模糊的抄袭中,文本通常使用词汇和句法释义、句子的缩减、组合、重组、概念泛化和特化等手段来躲避抄袭检测(Alzahranietal.,2012)。面对抄袭文档会大篇幅的改动、大部分的单词和短语都被替换的情况,启发式方法在高模糊抄袭的文本匹配中没有取得令人满意的性能。例如,在PAN@CLEF2012高模糊抄袭子集上,PlagDet的最高分仅为0.4067,在总结性抄袭子集上,PlagDet的最高分仅为0.6101(Potthastetal.,2012a;2013a)。单凭专家经验和启发式规则设计的抄袭匹配方法受到它所在的框架的限制,特别是在实践中,很难向启发式方法中添加在抄袭检测的研究中已被确认的有效的特征来捕获高模糊抄袭的匹配文本。因此,在基于启发式的文本匹配方法中,系统性能的改善只能依赖于修改原启发式方法的参数或者开发新的启发式方法实现。现有技术中针对基于启发式的文本匹配方法存在的问题没有给出相应的解决方案。
技术实现思路
本专利技术的目的是提供一种基于排序的抄袭检测文本匹配方法,为了解决基于启发式方法依赖专家经验,致使检测性能不佳的问题。本专利技术为解决上述技术问题采取的技术方案是:一种基于排序的抄袭检测文本匹配方法,所述方法的实现过程为:步骤1、构建基于排序的抄袭文本匹配模型:设f为基于排序的抄袭文本匹配模型,f是关于的线性函数,定义如下:其中,称f为基于排序的抄袭文本匹配模型;表示利用源文档片段与抄袭文档片段对所构建的描述源文档片段与抄袭文档片段抄袭程度的特征向量,表示权重向量,将使用基于序对的排序学习的方法获得;将基于步骤2获取,将基于步骤3的学习算法获得;步骤2、基于METEOR评价指标提取排序特征给出可疑文档dplg中的片段si,将选择si的抄袭源形式化为给定一个可疑文档的片段si,对源文档的片段列表dsrc={(r1,r2,......,rq)}的每个文本片段rj,利用机器翻译评价指标METEOR的精确率Precision、召回率Recall、F1值、F均值Fmean、惩罚度Penalty和METEOR得分METEORScore六个评价指标构建特征向量将作为排序学习的特征向量;的每一维为METEOR的一个评价指标,分别为Precision、Recall、F1、Fmean、Penalty和METEORScore;其计算方法如表1的公式所示:表1基于METEOR的特征步骤3、根据抄袭文本匹配的排序算法,学习排序模型f,获得权重向量具体过程为:定义和是一对文本片段(si,ru)和(si,rv)的特征向量,yi,u和yi,v分别表示si与ru以及si与rv的抄袭程度;用>表示偏序关系,如果yi,u>yi,v,表示对于可疑文档片段si,ru排序在rv前面,即下列不等式成立:对于偏序关系yi,u>yi,v,如果则模型f发生了一个错误;因此,损失函数应该与定义在训练数据集上的排序错误相关;排序错误发生在f将一个非抄袭匹配文档对排在抄袭匹配文档对之前,即:其中,如果π是真,则[[π]]为0,否则[[π]]为1;最小化式(3)意味着排序学习系统应该在假设空间H上学习一个排序函数f∈H,使得f在训练数据T的n个可疑文档片段上,最大化下列不等式的数目:直接优化上述问题被证明是NP难的;使用松弛变量(非负)ξi,j,k式(4)可被表示为:进一步的,等式(5)可被重写为:用新的向量表示偏好关系yi,u>yi,v;令z表示ru和rv,的排序,则有:根据ru和rv的排序,赋予向量一个正的标签z=+1或一个负的标签z=-1;由此,式(6)的优化问题转化为在序对上的分类问题;等式(7)等价于在序对向量上解决下面的二次最优化问题:最小化:使得:ξu,v,k≥0,k=1,...,n其中,项控制模型的复杂度;式(8)为:使用定义在文档序对上的Hinge损失,对于可疑文档片段si,xi,u为抄袭匹配对应的向量,xi,v不是抄袭匹配对应的向量,yu,v=1,那么如果以边界1大于则没有损失,否则,损失为ξu,v,k;对于经RankingSVM学到的优化向量则最终的排序函数f为:式中,表示源文档片段与抄袭文档片段对的特征向量,表示算法学到的最优的权重向量,表示最优权重向量与特征向量的线性组合。进一步地,步骤1所述基于排序的抄袭文本匹配模型的构建过程为:设可疑文档dplg={(s1,s2,......,sp)},dplg的抄袭源文档dsrc={(r1,r2,......,rq)},其中si和rj分别是文档dplg和dsrc的文本片段(例如一个句子);定义p和q分别是dplg和dsrc中的文本片段的数目;给定si∈dplg,表示在dsrc中找到si最可能的抄袭匹配;对于一个文本片段对(si,rj),设yi,j是表明si和rj抄袭匹配程度的标签;设在文本dsrc中,ru是si的抄袭匹配,rv不是si的抄袭匹配,则希望:yi,u>yi,v(10)给定一个文本片段对(si,rj),设函数的输出与yi,j成正比:其中是函数f的参数;根据不等式(10)和(11),函数f应满足下列不等式不等式(12)定义了两个文本片段对(si,ru)和(si,rv)之间的偏序关系;给定si∈dplg,基于在dsrc中找到si最可能的抄袭匹配的目标,认为文本片段对间的相对顺序比准确的预测每一个文本片段对的抄袭程度更重要,使用函数f,得到dsrc中的文本片段关于si的抄袭程度的列表在中,假设si的抄袭匹配文本排序在非抄袭匹配文本前面,则下列不等式成立:其中,是dsrc中si的抄袭匹配文本的数目,q是dsrc中文本片段的总数;给定一个si∈dplg,排序列表L(i)的前个文本片段可视为si的抄袭匹配;因此,估计rj是si的抄袭匹配可以通过排序dsrc上的文本片段实现;通过学习函数f,使得排序列表中抄袭匹配片段尽可能的排序在非抄袭片段前面;当给定一个新的可疑文档中的文本片段sm时,使用学到的函数f得到的关于sm排序列表在中,sm的抄袭匹配通过截取的前个文本片段实现。本专利技术的有益效果是:针对基于启发式的文本匹配方法存在的问题,本专利技术提出使用统计机器学习的方法识别抄袭本文档来自技高网
...

【技术保护点】
1.一种基于排序的抄袭检测文本匹配方法,其特征在于,所述方法的实现过程为:步骤1、构建基于排序的抄袭文本匹配模型:设f为基于排序的抄袭文本匹配模型,f是关于

【技术特征摘要】
1.一种基于排序的抄袭检测文本匹配方法,其特征在于,所述方法的实现过程为:步骤1、构建基于排序的抄袭文本匹配模型:设f为基于排序的抄袭文本匹配模型,f是关于的线性函数,定义如下:其中,称f为基于排序的抄袭文本匹配模型;表示利用源文档片段与抄袭文档片段对所构建的描述源文档片段与抄袭文档片段抄袭程度的特征向量,表示权重向量,将使用基于序对的排序学习的方法获得;将基于步骤2获取,将基于步骤3的学习算法获得;步骤2、基于METEOR评价指标提取排序特征给出可疑文档dplg中的片段si,将选择si的抄袭源形式化为给定一个可疑文档的片段si,对源文档的片段列表dsrc={(r1,r2,......,rq)}的每个文本片段rj,利用机器翻译评价指标METEOR的精确率Precision、召回率Recall、F1值、F均值Fmean、惩罚度Penalty和METEOR得分METEORScore六个评价指标构建特征向量将作为排序学习的特征向量;的每一维为METEOR的一个评价指标,分别为Precision、Recall、F1、Fmean、Penalty和METEORScore;其计算方法如表1的公式所示:表1基于METEOR的特征步骤3、根据抄袭文本匹配的排序算法,学习排序模型f,获得权重向量具体过程为:定义和是一对文本片段(si,ru)和(si,rv)的特征向量,yi,u和yi,v分别表示si与ru以及si与rv的抄袭程度;用>表示偏序关系,如果表示对于可疑文档片段si,ru排序在rv前面,即下列不等式成立:对于偏序关系如果则模型f发生了一个错误;因此,损失函数应该与定义在训练数据集上的排序错误相关;排序错误发生在f将一个非抄袭匹配文档对排在抄袭匹配文档对之前,即:其中,如果π是真,则[[π]]为0,否则[[π]]为1;最小化式(3)意味着排序学习系统应该在假设空间H上学习一个排序函数f∈H,使得f在训练数据T的n个可疑文档片段上,最大化下列不等式的数目:直接优化上述问题被证明是NP难的;使用松弛变量(非负)式(4)可被表示为:进一步的,等式(5)可被重写为:用新的向量表示偏好关系令z表示ru和rv,的排序,则有:根据ru和rv的排序,赋予向量一个正的标签z=+1或一个负的标签z=-1;由此,式(6)的优化问题转化为在序对上的分类问题;等式(7)等价于在序对向量上解决下面的二次最优化问题:最小化...

【专利技术属性】
技术研发人员:孔蕾蕾韩中元齐浩亮
申请(专利权)人:黑龙江工程学院
类型:发明
国别省市:黑龙江,23

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1