基于排序的抄袭检测文本匹配方法组成比例

技术编号：18894505 阅读：28 留言：0更新日期：2018-09-08 10:58

基于排序的抄袭检测文本匹配方法，涉及抄袭检测技术领域。本发明专利技术为了实现高模糊抄袭的检测，解决基于启发式方法依赖专家经验、无法融合抄袭检测中各类有效的特征的问题。将抄袭文本的匹配形式化为一个排序任务，给出一个可疑文本片段，该方法应用基于序对的排序学习方法获得源文档中该片段最可能抄袭的片段。本发明专利技术引入机器翻译的评价指标METEOR来捕获词汇相似和语义相似。应用PAN2012和PAN 2013的抄袭检测数据集对该方法进行了评价，并与PAN2013、2013和2014评测中获得最好性能的方法进行了比较。在高模糊抄袭和总结抄袭子集上，本发明专利技术相对基线方法在评价指标Plagdet上分别提高了22％和43％。本发明专利技术方法时间效率也优于基线方法。

Text matching method based on sorting for plagiarism detection

全部详细技术资料下载

【技术实现步骤摘要】
基于排序的抄袭检测文本匹配方法
本专利技术涉及一种抄袭检测文本匹配方法，涉及抄袭检测

技术介绍
抄袭文本匹配是抄袭检测的核心任务，该任务致力于获取可疑文档和它抄袭的源文档匹配的抄袭片段(Potthastetal.,2012a；2013a；2014)。研究者针对抄袭文本匹配开展了大量的工作，其中大部分研究基于启发式的方法，应用词或者字符表示可疑文档和抄袭源文档，然后通过计算可疑文档和源文档片段中重叠的字符、单词，或通过文本向量的相似来识别确切的或可能的抄袭匹配。这类方法在低模糊抄袭检测上取得了良好的性能，而在高模糊抄袭检测上的性能却不令人满意。例如，以PlagDet得分为评价指标(PAN定义的抄袭检测的主要评价指标，最高分为1.0)，在抄袭检测评测PAN@CLEF2012的无模糊抄袭检测子集上最高的PlagDet为0.9451，在PAN@CLEF2012的低模糊抄袭检测子集上，最高的PlagDet为0.8441。然而，与简单的复制和粘贴源文挡的无模糊抄袭或者简单的修改源文档的低模糊抄袭不同，在高模糊的抄袭中，文本通常使用词汇和句法释义、句子的缩减、组合、重组、概念泛化和特化等手段来躲避抄袭检测(Alzahranietal.,2012)。面对抄袭文档会大篇幅的改动、大部分的单词和短语都被替换的情况，启发式方法在高模糊抄袭的文本匹配中没有取得令人满意的性能。例如，在PAN@CLEF2012高模糊抄袭子集上，PlagDet的最高分仅为0.4067，在总结性抄袭子集上，PlagDet的最高分仅为0.6101(Potthastetal.,2012a；2013...

【技术保护点】
1.一种基于排序的抄袭检测文本匹配方法，其特征在于，所述方法的实现过程为：步骤1、构建基于排序的抄袭文本匹配模型：设f为基于排序的抄袭文本匹配模型，f是关于

【技术特征摘要】
1.一种基于排序的抄袭检测文本匹配方法，其特征在于，所述方法的实现过程为：步骤1、构建基于排序的抄袭文本匹配模型：设f为基于排序的抄袭文本匹配模型，f是关于的线性函数，定义如下：其中，称f为基于排序的抄袭文本匹配模型；表示利用源文档片段与抄袭文档片段对所构建的描述源文档片段与抄袭文档片段抄袭程度的特征向量，表示权重向量，将使用基于序对的排序学习的方法获得；将基于步骤2获取，将基于步骤3的学习算法获得；步骤2、基于METEOR评价指标提取排序特征给出可疑文档dplg中的片段si，将选择si的抄袭源形式化为给定一个可疑文档的片段si，对源文档的片段列表dsrc＝{(r1,r2,......,rq)}的每个文本片段rj，利用机器翻译评价指标METEOR的精确率Precision、召回率Recall、F1值、F均值Fmean、惩罚度Penalty和METEOR得分METEORScore六个评价指标构建特征向量将作为排序学习的特征向量；的每一维为METEOR的一个评价指标，分别为Precision、Recall、F1、Fmean、Penalty和METEORScore；其计算方法如表1的公式所示：表1基于METEOR的特征步骤3、根据抄袭文本匹配的排序算法，学习排序模型f，获得权重向量具体过程为：定义和是一对文本片段(si,ru)和(si,rv)的特征向量，yi,u和yi,v分别表示si与ru以及si与rv的抄袭程度；用＞表示偏序关系，如果表示对于可疑文档片段si，ru排序在rv前面，即下列不等式成立：对于偏序关系如果则模型f发生了一个错误；因此，损失函数应该与定义在训练数据集上的排序错误相关；排序错误发生在f将一个非抄袭匹配文档对排在抄袭匹配文档对之前，即：其中，如果π是真，则[[π]]为0，否则[[π]]为1；最小化式(3)意味着排序学习系统应该在假设空间H上学习一个排序函数f∈H，使得f在训练数据T的n个可疑文档片段上，最大化下列不等式的数目：直接优化上述问题被证明是NP难的；使用松弛变量(非负)式(4)可被表示为：进一步的，等式(5)可被重写为：用新的向量表示偏好关系令z表示ru和rv，的排序，则有：根据ru和rv的排序，赋予向量一个正的标签z＝+1或一个负的标签z＝-1；由此，式(6)的优化问题转化为在序对上的分类问题；等式(7)等价于在序对向量上解决下面的二次最优化问题：最小化...

【专利技术属性】
技术研发人员：孔蕾蕾，韩中元，齐浩亮，
申请(专利权)人：黑龙江工程学院，
类型：发明
国别省市：黑龙江,23

全部详细技术资料下载我是这个专利的主人