一种自动检测学术不端文献的方法及系统技术方案

技术编号：3990439 阅读：443 留言：0更新日期：2012-04-11 18:40

本发明专利技术公开了一种自动检测学术不端文献的方法及系统，所述方法将待检测文献的层级内容及文献内表格数据创建特征；对所存有的文献层级内容及文献内的表格数据创建特征；将待检测文献的层级内容特征和待检测文献内的表格数据特征与所存有文献的层级内容特征及所存有文献内的表格特征进行匹配；判断待检测文献中是否含有学术不端内容、不端表格数据及不端内容的类型。所述系统包括待检测文献特征区、待检测文献比对资源区、分层内容特征匹配区及不端学术文献及类型判定区。本发明专利技术通过分层多阶特征结构，不仅可以对超长文献进行快速检测，而且，也满足了文献最小特征粒度短句的检测，提高了检准率和检全率；而且该发明专利技术还支持文献内表格数据特征的创建及匹配全部文献的一次性匹配。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及智能信息处理和计算机
，尤其涉及一种自动检测学术不端文献及文献内表格数据的方法及系统。
技术介绍
随着网络的快速发展和迅速普及，目前在互联网上发布的电子文本成为当前知识产权保护的一个重点。由于电子文本易于复制和下载，已成为许多人研究、引用的对象，一些电子文本被大版面的复制而被认为抄袭的案例时有发生。而目前网络上的电子文本保护措施主要通过阻止和检测法。目前，也出现了电子文本内容剽窃的方法，如专利申请号为“200810232309. 8 — 种检测及定位电子文本内容剽窃的方法”与专利申请号为“03134562. X 一种利用计算机程序检测电子文本剽窃的方法”该现有专利主要是通过向计算机系统提交被检测文本，提取特征模块生成项序列，然后从项序列中依次取出每个项映射到已知项表上，生成疑似剽窃队列，获取剽窃证据表；最后计算文本的雷同度，判断被检测文本中是否含有剽窃的内容。上述检测过程只是单层特征的检测，不能针对文献内的表格创建特征；其匹配也不是一篇文献针对多篇文献同时进行匹配，只是一篇针对一篇，两篇文献之间的匹配(如图1所示) 浪费了匹配的时间；而且对内容也只是检测抄袭的过程。
技术实现思路
为解决上述中存在的问题与缺陷，本专利技术提供了一种不仅支持一篇文献针对多篇文献间的一次性匹配，而且还可检测文献内表格数据、判断不端文献抄袭、篡改、一稿多投类型的自动检测学术不端文献的方法及系统。所述技术方案如下一种自动检测学术不端文献的方法，包括将待检测文献的层级内容及文献内表格数据创建特征；对所存有的文献层级内容及文献内的表格数据创建特征...

【技术保护点】
一种自动检测学术不端文献的方法，其特征在于，待检测文献特征与所存全部文献特征同时进行匹配，所述方法具体包括：将待检测文献的层级内容及文献内表格数据创建特征；对所存有的文献层级内容及文献内的表格数据创建特征；将待检测文献的层级内容特征和待检测文献内的表格数据特征与所存有文献的层级内容特征及所存有文献内的表格特征进行匹配；判断待检测文献中是否含有学术不端内容、不端表格数据及不端内容的类型。

【技术特征摘要】

【专利技术属性】
技术研发人员：张振海，孙雄勇，
申请(专利权)人：同方知网北京技术有限公司，
类型：发明
国别省市：11[中国|北京]

全部详细技术资料下载我是这个专利的主人