当前位置: 首页 > 专利查询>杨纯青专利>正文

中文数字反抄袭侦测比对系统与方法技术方案

技术编号:8593971 阅读:285 留言:0更新日期:2013-04-18 07:07
本发明专利技术涉及一种中文数字反抄袭侦测比对系统与方法,本系统包含文章存取、拆解、搜寻比对及评估报告等机制,使用过程中,使用者首先将比对文章经由文章存取机制上传至中心伺服器进行数据存取,中心伺服器将上传的比对文章分派给运算主机,该运算主机即通过文章拆解机制将比对文章拆解成句子群,并将所获之句群逐句上传至搜索引擎,透过搜寻比对机制进行搜寻,即可获得与拆解文章字句雷同的网页或文章并下载回传至运算主机,以进行比对文章与雷同网页或文章的全文比对,全文比对结果会将比对文章和与所述比对文章相雷同的网页或文章的雷同部分标示并陈,并注记网页之来源,此一比对结果将会回传至中心伺服器,因此使用者即可观看比对结果。

【技术实现步骤摘要】

本专利技术是关于,尤指一种利用搜索引擎的功 能,将要比对的文章以拆解字句算法拆解分句后分别拿去搜寻,当搜寻结果的总结吻合搜 寻的句子时,就把搜寻结果的网页载下来进行全文比对,即可快速判断是否有从此网站抄 袭的。
技术介绍
近年来网络发达,也改变了学生写作业的习惯,从过去鼓励学生多查阅网络数据, 到现在必须防堵学生使用网络数据,而网络使用也确实造成了大量抄袭的现象,互联网营 造出高度抄袭的环境,在环境与时间的压力下,容易产生抄袭行为;其次社会弥漫“走快捷 方式”取巧的心理,学生只关心写作业的效率而不重视作业质量,学术界也重视论文的出版 量,而较少关注内容质量,社会弥漫取巧的心态;再者,抄袭的偏差行为已成常态,代写服务 更让整个学术环境恶化,抄袭不诚实行为已恶化为学术欺骗的严重犯行。有鉴于学生抄袭行为日益严重,尤其是抄袭网络数据或将网络数据二次加工,重 新拼贴与排列组合成大杂烩文章的行为,国外的营利企业专利技术了数字抄袭侦测软件进行防 范,经过长时间的运作与测试,确实能降低抄袭行为的发生率,抑制学生想要侥幸投机的行 为,只是多数侦测系统的测验报告与相关文献几乎是以英语系国家为主,各种累积的知识 仅止于英文环境,无法移植到中文语系,由于中文语体不管是书写结构、字词组合、文字断 句(segmentation)、标点符号的使用等,都与英文环境有极大差异,因此中文化界面的数字 抄袭比对系统与方法仍需要开发,以适合华语教育界使用。已知的中文抄袭文章比对系统与方法,如中国台湾第1262402号题为《特征撷取、 数据解密方法以及抄袭文章搜寻的系统与方法》的专利技术专利公告,其是对已植入水印的文 章10进行特征撷取,以取得文件特征20,根据所取得的词汇输入搜索引擎30,并且比对索 引数据库40以搜寻因特网上可能抄袭的文章50 ;接着将搜寻所得的文章50与原文比对, 根据比对结果取得的句子执行水印解析;最后,将所取得的水印信息60与原来的水印比 对,然后根据比对结果判断该搜寻所得的文章是否为抄袭文章,若比对结果大于一临界值, 则表不其为抄袭文章70。而该已知专利技术的特征撷取方法是将自植入水印的文章取得的句子、词汇予以断词 及词性标注,然后根据文章中水印植入的词与句型,利用同义词库与同义句型库,针对文章 的文字产生其语意层面的特征,即将内容中藏有水印的句子与词汇取出。然后以词汇以及 词性作为查询定义的依据,在同义词数据库中进行搜寻,以取得可作为该文章的特征的词 汇。然后以该词汇为关键词,利用搜索引擎进行网络搜寻,以获得相关可能的抄袭文章。然而,该种已知的抄袭文章搜寻系统与方法由于必需经过将文章植入水印、将植 入水印的文章进行特征撷取、根据所取得的词汇输入搜索引擎30、比对索引数据库40以搜 寻因特网上可能抄袭的文章50、将搜寻所得的文章50与原文比对、根据比对结果取得的句 子执行水印解析、将所取得的水印信息60与原来的水印比对及根据比对结果判断该搜寻所得的文章是否为抄袭文章等繁杂的步骤,虽然可比对出改变同义词与同义句的部分,但对于比对一般论文或长篇文章而言,如此大量复杂的步骤对计算机服务器会造成很大的负荷,进而影响文章比对的速度,而降低使用的效率。其次,因为比对系统所搜寻到相同的部分可能是“参考书目”或合乎规范围的“直接引用”,故再精确的比对系统也很难直接判断一篇文章是否为抄袭文章;最后,“抄袭”一词仍未有客观明确的界定,雷同字数多寡也成为判断抄袭与否的重要参考因素,而水印范围的设定,并无法让使用者根据自己主观界定或客观学术环境作弹性调整。因此,为更有效率地判断一篇文章是否为抄袭文章,首先必需加快文章比对的速度,并利用抄袭比对系统的比对结果做为辅助判断是否为抄袭文章的依据,最后再以人工检视方法做进一步查验即可有效的判断一文章是否为抄袭文章;其次,使用者可以透过本身所处的学术环境或需求对于“抄袭”字数的定义作弹性调整,也符合用户的需求。所以,如何加快文章比对的速度,以及让审查者可清楚且快速得知比对文章中涉嫌抄袭部分与搜寻部分的差异,与对于抄袭字数定义作为弹性调整,则为该已知抄袭文章搜寻系统所欠缺考虑的部分。为此,本专利技术者基于多年相关系统开发与方法研究的经验,特针对目前加以研究,从而得出本专利技术专利申请。
技术实现思路
本专利技术的目的在于提供一种中文数字反抄袭侦测比对方法,使用者可将比对文章上传至中心伺服器以进行数据存取,并将比对文章透过系统程序所设定的拆解规则进行拆解,而得到固定字数的拆解文句,再利用搜索引擎将拆解文句一句一句搜寻后,即可获得多篇与拆解文句雷同的网页或文章,再将雷同的网页或文章与比对文章进行全文比对,对比对文章和与所述比对文章相雷同的网页或文章的雷同部分进行标记及分析,即可获得比对结果,该比对结果可供审查者进行人工查验,并判断比对文章是否为抄袭文章。本专利技术的中文数字反抄袭侦测比对系统,其中文章访问机制设首页元件以提供用户进入中文数字反抄袭侦测比对系统的管道,并设有上传元件与数据库元件;文章拆解机制在开始侦测上传比对文章时,将该比对文章以拆解字句算法,将每篇比对文章先以换行方式拆成多个段落,再依自定义的拆解字数,以固定字数将每个段落拆解成固定长度的最小侦测句子,并将各最小侦测句子的标点符号删除,再依自定义的搜寻比对字数,以固定字数做作为门坎筛选符合搜寻比对条件的最小侦测句子,最后即可将前述各符合搜寻比对条件的最小侦测句子登录编号,以提供搜寻比对机制进行侦测抄袭之用;搜寻比对机制设比对元件、判定元件及抄袭来源比对元件,利用比对元件及判定元件可获得与拆解文章部分雷同的网页或文章,并以抄袭来源比对元件连接并下载与比对文章相似的雷同的网页或文章,即可将比对文章与雷同的网页或文章以比对元件及判定元件进行全文比对;评估报告机制是在前述比对文章进行全文比对、判定后,即可针对每一份上传的比对文章做出分析,并获得比对结果。本专利技术的,乃在中文数字反抄袭侦测比对系统的中心伺服器设有多个运算主机,经由中心伺服器将各使用者上传的比对文章分派给各运算主机,利用运算主机进行文章拆解、下载多篇与文章拆解部分雷同的网页或文章、并进行全文比对,以获得比对结果,并将比对结果回传至中心伺服器,再经由中心伺服器传送至使用者。附图说明图1是本专利技术所述的中文数字反抄袭侦测比对方法的步骤流程图。图2是本专利技术所述的实施例。图3是本专利技术所述的中文数字反抄袭侦测比对系统的示意图。主要元件符号说明比对文章10中心伺服器11拆解文章12搜索引擎13雷同的网页或文章14全文比对15比对结果16文章访问机制2首页元件20上传元件21数据库元件22文章拆解机制3拆解字句算法30段落310拆解字数32最小侦测句子320搜寻比对字数33搜寻比对机制4比对元件40判定元件41抄袭来源比对元件42评估报告机制5用户6运算主机110具体实施方式如此,为使公众得 以充分了解本专利技术的特征,兹依附图标解说如下如图1所示,其为本专利技术的数字反抄袭比对方法的步骤流程图。首先,使用者可将比对文章10上传至中心伺服器11以进行数据存取,并将比对文章10以拆解字句算法进行拆解而得到拆解文章12,利用搜索引擎13将拆解文章12的最小侦测句子一句一句上传搜寻后,即可获得多篇与拆解文章12部分雷同的网页或文章14,本文档来自技高网
...

【技术保护点】
一种中文数字反抄袭侦测比对方法,包括下列步骤:将比对文章上传至中心伺服器以进行数据存取;将比对文章以拆解字句算法进行拆解而得到拆解文章;利用搜索引擎将拆解文章的最小侦测句子一句一句上传搜寻后,即可获得多篇与拆解文章部分雷同的网页或文章,并将该雷同的网页或文章下载;将比对文章与雷同的网页或文章进行全文比对,对比对文章与雷同的网页或文章相似的部分进行标记及分析,即可获得比对结果,该比对结果可供审查者进行人工查验,并判断比对文章是否为抄袭文章。

【技术特征摘要】
2011.10.12 TW 1001369081.一种中文数字反抄袭侦测比对方法,包括下列步骤 将比对文章上传至中心伺服器以进行数据存取; 将比对文章以拆解字句算法进行拆解而得到拆解文章; 利用搜索引擎将拆解文章的最小侦测句子一句一句上传搜寻后,即可获得多篇与拆解文章部分雷同的网页或文章,并将该雷同的网页或文章下载; 将比对文章与雷同的网页或文章进行全文比对,对比对文章与雷同的网页或文章相似的部分进行标记及分析,即可获得比对结果,该比对结果可供审查者进行人工查验,并判断比对文章是否为抄袭文章。2.一种中文数字反抄袭侦测比对系统,至少包含 文章存取机制,设首页元件以提供用户进入中文数字反抄袭侦测比对系统的管道;前述文章存取机制设上传元件以提供网站页面供使用者上传比对文章至中心伺服器;前述文章存取机制设数据库元件以随时在因特网上搜集各类型的数字数据,并加以储存,可增加比对时的数据源; 文章拆解机制,前述文章拆解机制在开始侦测上传比对文章时,将该比对文章以拆解字句算法,将每篇比对文章先以换行方式拆成多个段落,再依自定义的拆解字数,以固定字数将每个段落拆解成固定长度的最小侦测句子,并将各最小侦测句子的标点符号删除,再依自定义的搜寻比对字数,以固定字数作为门坎筛选符合搜寻比对条件的最小侦测句子,最后即可将前述各符合搜寻比对条件的最小侦测句子登录编号,以供搜寻比对机制进行侦测抄袭之用; 搜寻比对机制设比对元件,前述比对元件可透过因特网搜索引擎、各式电子文章数据库或其他学生的文章等加以登录比对前述经筛选过的最小侦测句子,或将比对文章与雷同的网页或文章进行全文比对;前述搜寻比对机制设判定元件,此判定元件的功能在于根据前述比对元件的比对结果,针对比对文章中的每一句、每一段落做出是否抄袭的判断,并以百分比来呈现其抄袭可能性,或对比对文章与雷同的网页或文章进行全文比对的抄袭比例也做出评估判定;前述搜寻比对机制设抄袭来源比对元件,主要是建立抄袭文字与抄袭来源间之连接工作,以连接并下载与比对文章相似之雷同的网页或文章进行全文比对; 评估报告机制,是所有侦测工作的最后一项,在前述比对文章进行全文比对、判定后...

【专利技术属性】
技术研发人员:杨纯青
申请(专利权)人:杨纯青
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1