【技术实现步骤摘要】
一种基于引用的论文原创性检测方法
本专利技术涉及论文检索对比领域,具体涉及一种基于引用的论文原创性检测方法。
技术介绍
书目耦合的概念其作为一种主题相似度措施是非常具有实用意义的。若两个文档间至少拥有一个相同的参考书目,则认为这两个文档是书目耦合的。以共享引用的数量来表征耦合强度。书目耦合方法是基于作者在选择参考书目时所确定的早期文献来表征文件间的关系。这种关系对于耦合文件而言是静态的和内在的,因为其仅仅取决于各自的引用作品,并不随着时间的推移而改变。一些研究人员质疑书目耦合作为一种相似性衡量标准的有效性。书目耦合只能表征文件间存在相关关系的概率,具有不确定的价值。通过分析得出,具有耦合关系,但不存在主题相似的文本占到了整个文本集的15%-19%,否定了书目耦合的有效性。除此之外还有学者对其提出批判,认为绝对耦合强度不能保证同样的相似单位,这在不同的文本中不具有可比性。评论类的文章趋向于拥有更高的耦合强度,因为此类文章中通常包含更多的参考文献。对于这个问题,相对书目耦合即共享与非共享引用的部分文件从某种程度上可以对其提供补救,但是无法彻底解决。书目耦合的静态性质在 ...
【技术保护点】
1.一种基于引用的论文原创性检测方法,其特征在于,包括以下步骤:(1)语料库处理;(2)参考书目分割与提取;(3)引文识别与提取,根据书目作者与出版年份定位引文,并利用解析器进行提取;(4)基于引用特征的剽窃检测,候选文档生成阶段采用的引用特征包括:书目耦合、最长公共引用序列以及引文分块;通过结合以上三种引用特征来判定抄袭,得到最终剽窃结果。
【技术特征摘要】
1.一种基于引用的论文原创性检测方法,其特征在于,包括以下步骤:(1)语料库处理;(2)参考书目分割与提取;(3)引文识别与提取,根据书目作者与出版年份定位引文,并利用解析器进行提取;(4)基于引用特征的剽窃检测,候选文档生成阶段采用的引用特征包括:书目耦合、最长公共引用序列以及引文分块;通过结合以上三种引用特征来判定抄袭,得到最终剽窃结果。2.根据权利要求1所述的一种基于引用的论文原创性检测方法,其特征在于,所述语料库处理具体包括:使用web搜索引擎,利用启发式规则,搜索文章并下载;对于已下载的文章,进行格式转换,统一转为UTF-8编码的纯文本格式;对于纯文本,首先检验其是否为一个有效的科学文档,即判断其是否包含参考文献部分,若不包含或者包含不完整引用或错误引用的文件则从实验文档集中除去,对文本进行规范化处理;采用简单的基线方法识别指向同一文章的引用,遍历所有参考书目,根据是否引用同一文章分组,然后基于引用长度从最长到最短来排列,对于每一个引用,我们寻找其与之前引用相匹配的最大数量,若这个数字超过一个阈值,则该引用被认为是与之前引用所代表的文章相同,将其与之前的引用归入同一组,否则将其视为新的引用。3.根据权利要求1所述的一种基于引用的...
【专利技术属性】
技术研发人员:刘刚,王贺飞,杨笑笑,
申请(专利权)人:哈尔滨工程大学,
类型:发明
国别省市:黑龙江,23
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。