【技术实现步骤摘要】
本专利技术属于智能信息处理和计算机
,涉及一种检测电子文本是否含有剽窃内容的方法,特别是一种检测及定位电子文本内容剽窃的方法,该方法能够对被检测的电子文本进行精确定位,并给出确凿的剽窃证据。
技术介绍
随着网络的快速发展和迅速普及,目前在互联网上发布的电子文本成为当前知识产权保护的一个重点。由于电子文本易于复制和下载,已成为许多人研究、引用的对象,一些电子文本被大版面的复制而被认为抄袭的案例时有发生。而目前网络上的电子文本保护措施主要有两种:一种是“阻止”法,一种是“检测”法。“阻止”法就是使用加密、水印、特殊载体等方法使得受保护内容难以拷贝。例如IEEE通过光盘发行文集,中国期刊网上的文章采用专用软件才能阅读。贝尔实验室提出了“水印”技术使用加密的单词空格或者图像,可以鉴定文档授权用户身份。但是这个世界上没有攻不破的马其诺防线,也没有绝对可靠的加密技术。上述方法都有可能被破解;而且我们也没有技术手段来防止授权用户使用光学识别(OCR)等办法去非法复制、扩散。所以“阻止”法不能完全解决知识产权保护问题。“检测”法保护知识产权的思路是这样的:它并不关心文件是如何被复制的。而是首先判断出当前的文件中是否含有复制或者剽窃的内容;如果发现了非法复制或者剽窃行为,那么再对复制源或者剽窃者采取相关措施。“检测”法的核心就是复制检测技术。显然“阻止”法和“检测”法不是相互对立的关系,而应该相互补充、完善才能更好地保护知识产权。-->所谓文本复制检测,也称为文本剽窃检测,就是判断一个文本的内容是否抄袭、剽窃或者复制于另外一个或者多个文本。剽窃不仅仅意味着原封不动地 ...
【技术保护点】
一种检测及定位电子文本内容剽窃的方法,其特征在于,该方法利用计算机系统检测电子文本是否含有剽窃内容并且精确定位剽窃文字,所述的计算机系统至少包括: 电子文本录入模块,用以向计算机系统提交被检测文本或者增添新的被检测文本; 文本特 征提取模块,用以提取文本特征,生成项序列; 剽窃证据提取模块,用以项序列中依次取出每个项映射到已知项表上,生成疑似剽窃队列,获取剽窃证据表; 判定电子文本剽窃模块,用以计算被检测文本对雷同度,判定被检测文本中是否含有剽窃内容; 展示检测结果及定位剽窃内容模块,用以向用户输出检测结果并展示剽窃文本具体的剽窃内容作为剽窃证据; 电子文本录入模块、文本提取特征模块、剽窃证据提取模块、文本剽窃判定模块、展示检测结果及定位剽窃内容模块依次相连,其检测和定位过程包 括以下步骤: 步骤一,对提交被检测文本或者增添新的被检测文本,根据文本结构信息和语义信息提取被检测文本特征,生成待检测项序列; 步骤二,依次处理待检测项序列中的所有项,生成疑似剽窃队列; 步骤三,检测所有疑似剽窃队列,从中 ...
【技术特征摘要】
1.一种检测及定位电子文本内容剽窃的方法,其特征在于,该方法利用计算机系统检测电子文本是否含有剽窃内容并且精确定位剽窃文字,所述的计算机系统至少包括:电子文本录入模块,用以向计算机系统提交被检测文本或者增添新的被检测文本;文本特征提取模块,用以提取文本特征,生成项序列;剽窃证据提取模块,用以项序列中依次取出每个项映射到已知项表上,生成疑似剽窃队列,获取剽窃证据表;判定电子文本剽窃模块,用以计算被检测文本对雷同度,判定被检测文本中是否含有剽窃内容;展示检测结果及定位剽窃内容模块,用以向用户输出检测结果并展示剽窃文本具体的剽窃内容作为剽窃证据;电子文本录入模块、文本提取特征模块、剽窃证据提取模块、文本剽窃判定模块、展示检测结果及定位剽窃内容模块依次相连,其检测和定位过程包括以下步骤:步骤一,对提交被检测文本或者增添新的被检测文本,根据文本结构信息和语义信息提取被检测文本特征,生成待检测项序列;步骤二,依次处理待检测项序列中的所有项,生成疑似剽窃队列;步骤三,检测所有疑似剽窃队列,从中获得剽窃证据,生成证据表;步骤四,根据证据表计算文本雷同度,判定是否有剽窃,如果雷同度大于或等于某个阈值则认为被检测文本中存在剽窃,否则认为被检测文本中没有剽窃;步骤五,被判定有剽窃的文本对从证据表中取出相应剽窃内容,作为剽窃证据显示。2.如权利要求1所述的方法,其特征在于,所述的被检测文本来自于用户人工录入,或者用户现有文本的拷贝,或者用户通过网络下载,或者通过互联网自动获取,被检测文本在计算机中无论以什么格式存储,其呈现的是自然语言为主的内容,不是图形、图像、视频或音频信息。3.如权利要求2所述的方法,其特征在于,所述的自然语言包括中文、英文、日文、朝鲜文、法文、西班牙文、俄文、德文或其它单一语言构成的文本,或者由以上语言混合而成的文本。4.如权利要求1所述的方法,其特征在于,所述的被检测文本被处理的最小单元是项,所述的项是一个或者多个连续的字符,项在计算机系统中按照如下方式安排:所有项存入一个哈希表中,每一个项都是一个关键字,并且每一个项都对应一个文件列表,文件列表中存的是所有包含该项的文件或者文件代码,文件列表用哈希表组织,文件代码是关键字;文件列表中的每一个文件或者文件代码都对应一个队列,队列中存储该项在该文件中的所有出现位置,队列中的位置按照有序方式排列。5.如权利要求1所述的方法,其特征在于,...
【专利技术属性】
技术研发人员:鲍军鹏,冯中慧,
申请(专利权)人:西安交通大学,
类型:发明
国别省市:87[中国|西安]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。