一种检测及定位电子文本内容剽窃的方法技术

技术编号:2916127 阅读:276 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种利用计算机系统检测及定位电子文本内容剽窃的方法,该计算机系统至少包括:电子文本录入模块,文本特征提取模块,剽窃证据提取模块,文本剽窃判定模块,展示检测结果及定位剽窃内容模块。其检测方法首先根据文本结构信息和语义信息提取特征,获得待检测项序列;然后依次处理待检测项序列中的所有项,获得疑似剽窃队列;接着检测所有疑似剽窃队列,从中获得剽窃证据,生成剽窃证据表;然后根据证据表计算文本雷同度,并判定是否有剽窃。如果雷同度大于或等于某个阈值则认为被检测文本中存在剽窃,否则认为被检测文本中没有剽窃。被判定有剽窃的文本对从证据表中取出相应剽窃证据,送入展示模块显示具体剽窃内容。

【技术实现步骤摘要】

本专利技术属于智能信息处理和计算机
,涉及一种检测电子文本是否含有剽窃内容的方法,特别是一种检测及定位电子文本内容剽窃的方法,该方法能够对被检测的电子文本进行精确定位,并给出确凿的剽窃证据。
技术介绍
随着网络的快速发展和迅速普及,目前在互联网上发布的电子文本成为当前知识产权保护的一个重点。由于电子文本易于复制和下载,已成为许多人研究、引用的对象,一些电子文本被大版面的复制而被认为抄袭的案例时有发生。而目前网络上的电子文本保护措施主要有两种:一种是“阻止”法,一种是“检测”法。“阻止”法就是使用加密、水印、特殊载体等方法使得受保护内容难以拷贝。例如IEEE通过光盘发行文集,中国期刊网上的文章采用专用软件才能阅读。贝尔实验室提出了“水印”技术使用加密的单词空格或者图像,可以鉴定文档授权用户身份。但是这个世界上没有攻不破的马其诺防线,也没有绝对可靠的加密技术。上述方法都有可能被破解;而且我们也没有技术手段来防止授权用户使用光学识别(OCR)等办法去非法复制、扩散。所以“阻止”法不能完全解决知识产权保护问题。“检测”法保护知识产权的思路是这样的:它并不关心文件是如何被复制的。而是首先判断出当前的文件中是否含有复制或者剽窃的内容;如果发现了非法复制或者剽窃行为,那么再对复制源或者剽窃者采取相关措施。“检测”法的核心就是复制检测技术。显然“阻止”法和“检测”法不是相互对立的关系,而应该相互补充、完善才能更好地保护知识产权。-->所谓文本复制检测,也称为文本剽窃检测,就是判断一个文本的内容是否抄袭、剽窃或者复制于另外一个或者多个文本。剽窃不仅仅意味着原封不动地照搬,还包括对原作的移位变换、同义词替换以及改变说法重述等等方式。现在文本复制检测技术主要有两种基本检测方法:一种是“字符串匹配”法,另一种是“词频”法。所谓字符串匹配检测法就是首先从文本中提取一些特征字符串,一般称之为“指纹”(fingerprints);然后根据这些指纹的雷同率来判定文本中是否有剽窃。例如斯坦福大学Brin和Garcia-Molina等人提出的COPS系统([1]S.Brin,J.Davis,and H.Garcia-Molina.Copy detection mechanismsfor digital documents.In Proceedings of the ACM SIGMOD AnnualConference,s San Francisco,CA,May 1995.);贝尔实验室Heintze开发的KOALA系统([2]Heintze N.Scalable Document Fingerprinting.InProceedings of the Second USENIX Workshop on Electronic Commerce,Oakland,California,18-21 November,1996.)等等。所谓词频检测法是借用信息检索中“单词袋”(bag of words)方法,首先统计文本中各个单词出现频率,然后对单词频率矢量运用某种度量得到两篇文本的雷同度,并得出最终判断。例如斯坦福大学Garcia-Molina和Shivakumar等人提出的SCAM原型([3]N.Shivakumar and H.Garcia-Molina.SCAM:A copy detection mechanism for digital documents.In Proceedings of 2nd International Conference in Theory and Practiceof Digital Libraries(DL’95),Austin,Texas,June 1995.);香港理工大学Si和Leong等人建立的CHECK原型([4]Si A.,Leong H.V.,Lau R.W.H.CHECK:A Document Plagiarism Detection System.In Proceedingsof ACM Symposium for Applied Computing,pp.70-77,Feb.1997.)等等。字符串匹配法可以精确确定被复制内容,但是当字符串中个别字词被改-->变(删除)之后,精度便大大降低。词频法具有一定抗噪声性能,小规模的字词改变不会显著影响检测精度,检测效率相对较高。但是当被复制内容占整篇文本的比重较小时,词频法则难以检测出来。词频法对于n合1型部分复制几乎失效。字符串匹配法是一种注重于局部特征的检测方法,由于局部特征一般不稳定,所以该方法抗噪声性能不佳。词频法通过词频挖掘全局特征,局部的微小调整不会影响全局特征,所以该方法抗噪声能力相对较强。但是由于词频法仅仅关注全局特征,忽略了局部特征,从而不能对两篇比较相似(但不同)的文本进行细致检测,所以词频法对于小含量剽窃(例如n合1型部分复制)难以检测。申请人于2003年向中国专利局提交了名称为“一种利用计算机程序检测电子文本剽窃的方法”,已被授予专利权(专利号:ZL 03134562.X),该方法根据文本的结构信息和语义信息提取文本特征;然后运用文本剽窃判定模块中设定的探针法估计待检测文本特征和特征库中的文本特征的最大共同语义并给出文本雷同度量;最后据此判定是否有剽窃,如果雷同度大于或者等于某个阈值则认为被检测文本中存在剽窃,否则认为被检测文本中没有剽窃,适合于较快速地检测长文本剽窃。该方法适当结合了基本字符串匹配法和词频法,不是依据简单字词的频率度量雷同度,而是根据文本特征语义序列的重叠概率来度量雷同度。但是,由于该方法的文本特征库中没有存储完整的文本内容,所以该方法不会给出剽窃文本的具体内容,即无法定位具体剽窃内容。也就是说,对于检测的剽窃文本不能同时给出确凿的剽窃证据。
技术实现思路
针对上述现有技术存在的缺陷或不足,本专利技术的目的在于,提供一种检测及定位电子文本内容剽窃的方法,该方法可以检测出经过简单字词替换、插入、删减等手段处理过的剽窃文本,并精确定位剽窃内容,给出剽窃证据。-->通过该方法可以找出或者发现那些有剽窃嫌疑的电子文本,指出被剽窃内容,为采取进一步措施保护合法知识产权提供了技术手段和依据。为了实现上述任务,本专利技术采取如下的技术解决方案:一种检测及定位电子文本内容剽窃的方法,其特征在于,该方法利用计算机系统检测电子文本是否含有剽窃内容并且精确定位剽窃文字,所述的计算机系统至少包括:电子文本录入模块,用以向计算机系统提交被检测文本或者增添新的被检测文本;文本特征提取模块,用以提取文本特征,生成项序列;剽窃证据提取模块,用以项序列中依次取出每个项映射到已知项表上,生成疑似剽窃队列,获取剽窃证据表;判定电子文本剽窃模块,用以计算被检测文本对雷同度,判定被检测文本中是否含有剽窃内容;展示检测结果及定位剽窃内容模块,用以向用户输出检测结果并展示剽窃文本具体的剽窃内容作为剽窃证据。电子文本录入模块、文本提取特征模块、剽窃证据提取模块、文本剽窃判定模块、展示检测结果及定位剽窃内容模块依次相连,其检测和定位过程包括以下步骤:步骤一,对提交被检测文本或者增添新的被检测文本,根据文本结构信息和语义信息提取被检测文本特征本文档来自技高网
...

【技术保护点】
一种检测及定位电子文本内容剽窃的方法,其特征在于,该方法利用计算机系统检测电子文本是否含有剽窃内容并且精确定位剽窃文字,所述的计算机系统至少包括: 电子文本录入模块,用以向计算机系统提交被检测文本或者增添新的被检测文本; 文本特 征提取模块,用以提取文本特征,生成项序列; 剽窃证据提取模块,用以项序列中依次取出每个项映射到已知项表上,生成疑似剽窃队列,获取剽窃证据表; 判定电子文本剽窃模块,用以计算被检测文本对雷同度,判定被检测文本中是否含有剽窃内容;   展示检测结果及定位剽窃内容模块,用以向用户输出检测结果并展示剽窃文本具体的剽窃内容作为剽窃证据; 电子文本录入模块、文本提取特征模块、剽窃证据提取模块、文本剽窃判定模块、展示检测结果及定位剽窃内容模块依次相连,其检测和定位过程包 括以下步骤: 步骤一,对提交被检测文本或者增添新的被检测文本,根据文本结构信息和语义信息提取被检测文本特征,生成待检测项序列; 步骤二,依次处理待检测项序列中的所有项,生成疑似剽窃队列; 步骤三,检测所有疑似剽窃队列,从中 获得剽窃证据,生成证据表; 步骤四,根据证据表计算文本雷同度,判定是否有剽窃,如果雷同度大于或等于某个阈值则认为被检测文本中存在剽窃,否则认为被检测文本中没有剽窃; 步骤五,被判定有剽窃的文本对从证据表中取出相应剽窃内容,作为剽 窃证据显示。...

【技术特征摘要】
1.一种检测及定位电子文本内容剽窃的方法,其特征在于,该方法利用计算机系统检测电子文本是否含有剽窃内容并且精确定位剽窃文字,所述的计算机系统至少包括:电子文本录入模块,用以向计算机系统提交被检测文本或者增添新的被检测文本;文本特征提取模块,用以提取文本特征,生成项序列;剽窃证据提取模块,用以项序列中依次取出每个项映射到已知项表上,生成疑似剽窃队列,获取剽窃证据表;判定电子文本剽窃模块,用以计算被检测文本对雷同度,判定被检测文本中是否含有剽窃内容;展示检测结果及定位剽窃内容模块,用以向用户输出检测结果并展示剽窃文本具体的剽窃内容作为剽窃证据;电子文本录入模块、文本提取特征模块、剽窃证据提取模块、文本剽窃判定模块、展示检测结果及定位剽窃内容模块依次相连,其检测和定位过程包括以下步骤:步骤一,对提交被检测文本或者增添新的被检测文本,根据文本结构信息和语义信息提取被检测文本特征,生成待检测项序列;步骤二,依次处理待检测项序列中的所有项,生成疑似剽窃队列;步骤三,检测所有疑似剽窃队列,从中获得剽窃证据,生成证据表;步骤四,根据证据表计算文本雷同度,判定是否有剽窃,如果雷同度大于或等于某个阈值则认为被检测文本中存在剽窃,否则认为被检测文本中没有剽窃;步骤五,被判定有剽窃的文本对从证据表中取出相应剽窃内容,作为剽窃证据显示。2.如权利要求1所述的方法,其特征在于,所述的被检测文本来自于用户人工录入,或者用户现有文本的拷贝,或者用户通过网络下载,或者通过互联网自动获取,被检测文本在计算机中无论以什么格式存储,其呈现的是自然语言为主的内容,不是图形、图像、视频或音频信息。3.如权利要求2所述的方法,其特征在于,所述的自然语言包括中文、英文、日文、朝鲜文、法文、西班牙文、俄文、德文或其它单一语言构成的文本,或者由以上语言混合而成的文本。4.如权利要求1所述的方法,其特征在于,所述的被检测文本被处理的最小单元是项,所述的项是一个或者多个连续的字符,项在计算机系统中按照如下方式安排:所有项存入一个哈希表中,每一个项都是一个关键字,并且每一个项都对应一个文件列表,文件列表中存的是所有包含该项的文件或者文件代码,文件列表用哈希表组织,文件代码是关键字;文件列表中的每一个文件或者文件代码都对应一个队列,队列中存储该项在该文件中的所有出现位置,队列中的位置按照有序方式排列。5.如权利要求1所述的方法,其特征在于,...

【专利技术属性】
技术研发人员:鲍军鹏冯中慧
申请(专利权)人:西安交通大学
类型:发明
国别省市:87[中国|西安]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1