一种中文文章查重方法和系统技术方案

技术编号:19745113 阅读:13 留言:0更新日期:2018-12-12 04:43
本发明专利技术提供一种中文文章查重方法和系统。该方法包括将待查文章和文章库中的文章均拆分为句子;将句子翻译成英文;将待查文章中的句子和文章库中文章的句子按序进行一一对比,判断相对比句子的相似度是否达到了设定范围;统计待查文章中与文章库中文章的句子相似度达到设定范围的句子数量是否达到了待查文章中句子总数的设定范围;如果是,则待查文章为重复文章。该方法和系统能够避免中文语言的复杂性如语句的重组和分词方法的不准所导致的中文论文查重准确性不高的问题,提高了中文论文查重的准确性。

【技术实现步骤摘要】
一种中文文章查重方法和系统
本专利技术涉及通信
,具体地,涉及一种中文文章查重方法和系统。
技术介绍
目前中文论文查重方法主要是基于语义知识的方法。基于语义知识的方法是通过分析比较待检测文章与数据库文章的自然语义相似程度从而达到判别抄袭的目的。由于汉语言的文章是以“字”为最小单位,而文章要表达的意思,则是以“词”为最小单位,常见的分词方法,不能完全准确的进行分词;中文语言的复杂性,如语句的重组,都会使得查重的准确性不高,基于语义知识的判断结果正确性很难得到保证。因此,如何提高中文论文的查重准确性已成为目前亟待解决的问题。
技术实现思路
本专利技术针对现有技术中存在的上述技术问题,提供一种中文文章查重方法和系统。该中文文章查重方法能够避免中文语言的复杂性如语句的重组和分词方法的不准所导致的中文论文查重准确性不高的问题,提高了中文论文查重的准确性。本专利技术提供一种中文文章查重方法,包括:步骤S10:将待查文章和文章库中的文章均拆分为句子;步骤S11:将所述句子翻译成英文;步骤S12:将所述待查文章中的句子和所述文章库中文章的句子按序进行一一对比,判断相对比句子的相似度是否达到了设定范围;步骤S13:统计所述待查文章中与所述文章库中文章的句子相似度达到设定范围的句子数量是否达到了所述待查文章中句子总数的设定范围;如果是,则所述待查文章为重复文章。优选地,在所述步骤S11之后和所述步骤S12之前还包括:步骤S11′:设置同义词库,所述同义词库用于定义同义词;步骤S12′:根据所述同义词库将所述文章库中文章和所述待查文章中的同义词统一更换为所述待查文章中的用词。优选地,所述步骤S11′包括:设置语义相近的词为同义词;设置表示同一时间的词为同义词;设置同一个词的不同时态和单复数为同义词;设置同一个词的大小写为同义词;设置同一个词的名词性物主代词和形容词性物主代词为同义词;设置同一事物的知名绰号、别名和本名为同义词。优选地,所述步骤S12包括:记录所述待查文章每个句子中出现的单词并统计该单词在该句子中的出现次数;记录所述文章库中文章的每个句子中出现的单词并统计该单词在该句子中的出现次数;判断所述文章库中文章和所述待查文章的相对比句子中出现单词及其出现次数均相同的情况数量是否达到了各个所述相对比句子中出现单词及其出现次数情况总量的设定范围;如果是,则所述相对比句子的相似度达到了设定范围。优选地,所述待查文章和所述文章库中的文章均按照语句结束符号拆分为句子;其中,所述语句结束符号包括句号、问号和感叹号。本专利技术还提供一种中文文章查重系统,包括:拆分模块,用于将待查文章和文章库中的文章均拆分为句子;翻译模块,用于将所述句子翻译成英文;对比判断模块,用于将所述待查文章中的句子和所述文章库中文章的句子按序进行一一对比,判断相对比句子的相似度是否达到了设定范围;统计确定模块,用于统计所述待查文章中与所述文章库中文章的句子相似度达到设定范围的句子数量是否达到了所述待查文章中句子总数的设定范围,并根据统计结果确定所述待查文章是否为重复文章。优选地,还包括:设置模块,用于设置同义词库,所述同义词库用于定义同义词;更换模块,用于根据所述同义词库将所述文章库中文章和所述待查文章中的同义词统一更换为所述待查文章中的用词。优选地,所述设置模块包括:第一设置单元,用于设置语义相近的词为同义词并设置表示同一时间的词为同义词;第二设置单元,用于设置同一个词的不同时态和单复数为同义词并设置同一个词的大小写为同义词;第三设置单元,用于设置同一个词的名词性物主代词和形容词性物主代词为同义词并设置同一事物的知名绰号、别名和本名为同义词。优选地,所述对比判断模块包括:第一记录统计单元,用于记录所述待查文章每个句子中出现的单词并统计该单词在该句子中的出现次数;第二记录统计单元,用于记录所述文章库中文章的每个句子中出现的单词并统计该单词在该句子中的出现次数;判断确定单元,用于判断所述文章库中文章和所述待查文章的相对比句子中出现单词及其出现次数均相同的情况数量是否达到了各个所述相对比句子中出现单词及其出现次数情况总量的设定范围,以确定所述相对比句子的相似度是否达到了设定范围。优选地,所述拆分模块用于将所述待查文章和所述文章库中的文章按照语句结束符号拆分为句子;其中,所述语句结束符号包括句号、问号和感叹号。本专利技术的有益效果:本专利技术所提供的中文文章查重方法和系统,通过将文章库中的文章和待查文章拆分为句子,并将句子都翻译成英文,然后通过对比按序相对应句子的相似度,统计相似度达设定范围的句子在待查文章句子中的占比,从而确定待查文章是否为重复文章,能够避免中文语言的复杂性如语句的重组和分词方法的不准所导致的中文论文查重准确性不高的问题,提高了中文论文查重的准确性。附图说明图1为本专利技术实施例1中中文文章查重方法的流程图;图2为本专利技术实施例2中中文文章查重方法的流程图;图3为本专利技术实施例3中中文文章查重系统的原理框图。其中的附图标记说明:1.拆分模块;2.翻译模块;3.对比判断模块;31.第一记录统计单元;32.第二记录统计单元;33.判断确定单元;4.统计确定模块;5.设置模块;51.第一设置单元;52.第二设置单元;53.第三设置单元;6.更换模块。具体实施方式为使本领域的技术人员更好地理解本专利技术的技术方案,下面结合附图和具体实施方式对本专利技术所提供的一种中文文章查重方法和系统作进一步详细描述。实施例1:本实施例提供一种中文文章查重方法,如图1所示,包括:步骤S10:将待查文章和文章库中的文章均拆分为句子。本实施例中,待查文章和文章库中的文章均为中文论文。文章库中的文章可以是一篇,也可以是多篇。步骤S11:将句子翻译成英文。将句子翻译成英文能够避免中文语言的复杂性如语句的重组和分词方法的不准所导致的文章查重准确性不高的问题。步骤S12:将待查文章中的句子和文章库中文章的句子按序进行一一对比,判断相对比句子的相似度是否达到了设定范围。其中,设定范围为70%以上。步骤S13:统计待查文章中与文章库中文章的句子相似度达到设定范围的句子数量是否达到了待查文章中句子总数的设定范围。如果是,则执行步骤S14:确定待查文章为重复文章。如果否,则执行步骤S15:确定待查文章为非重复文章。本实施例中,如果文章库中的文章为多篇,则待查文章与文章库中的文章逐篇进行步骤S12~步骤S15中的对比、统计和确定,从而确定待查文章与多篇文章相比,是否为重复文章,重复文章表示待查文章为抄袭文章。该中文文章查重方法,通过将文章库中的文章和待查文章拆分为句子,并将句子都翻译成英文,然后通过对比按序相对应句子的相似度,统计相似度达设定范围的句子在待查文章句子中的占比,从而确定待查文章是否为重复文章,能够避免中文语言的复杂性如语句的重组和分词方法的不准所导致的中文论文查重准确性不高的问题,提高了中文论文查重的准确性。实施例2:本实施例提供一种中文文章查重方法,如图2所示,包括:步骤S10:将待查文章和文章库中的文章均拆分为句子。该步骤中,待查文章和文章库中的文章均按照语句结束符号拆分为句子。其中,语句结束符号包括句号、问号和感叹号。本实施例中,待查文章和文章库中的文章均为中文论文。文章库中的文章是多篇。文章库本文档来自技高网...

【技术保护点】
1.一种中文文章查重方法,其特征在于,包括:步骤S10:将待查文章和文章库中的文章均拆分为句子;步骤S11:将所述句子翻译成英文;步骤S12:将所述待查文章中的句子和所述文章库中文章的句子按序进行一一对比,判断相对比句子的相似度是否达到了设定范围;步骤S13:统计所述待查文章中与所述文章库中文章的句子相似度达到设定范围的句子数量是否达到了所述待查文章中句子总数的设定范围;如果是,则所述待查文章为重复文章。

【技术特征摘要】
1.一种中文文章查重方法,其特征在于,包括:步骤S10:将待查文章和文章库中的文章均拆分为句子;步骤S11:将所述句子翻译成英文;步骤S12:将所述待查文章中的句子和所述文章库中文章的句子按序进行一一对比,判断相对比句子的相似度是否达到了设定范围;步骤S13:统计所述待查文章中与所述文章库中文章的句子相似度达到设定范围的句子数量是否达到了所述待查文章中句子总数的设定范围;如果是,则所述待查文章为重复文章。2.根据权利要求1所述的中文文章查重方法,其特征在于,在所述步骤S11之后和所述步骤S12之前还包括:步骤S11′:设置同义词库,所述同义词库用于定义同义词;步骤S12′:根据所述同义词库将所述文章库中文章和所述待查文章中的同义词统一更换为所述待查文章中的用词。3.根据权利要求2所述的中文文章查重方法,其特征在于,所述步骤S11′包括:设置语义相近的词为同义词;设置表示同一时间的词为同义词;设置同一个词的不同时态和单复数为同义词;设置同一个词的大小写为同义词;设置同一个词的名词性物主代词和形容词性物主代词为同义词;设置同一事物的知名绰号、别名和本名为同义词。4.根据权利要求2所述的中文文章查重方法,其特征在于,所述步骤S12包括:记录所述待查文章每个句子中出现的单词并统计该单词在该句子中的出现次数;记录所述文章库中文章的每个句子中出现的单词并统计该单词在该句子中的出现次数;判断所述文章库中文章和所述待查文章的相对比句子中出现单词及其出现次数均相同的情况数量是否达到了各个所述相对比句子中出现单词及其出现次数情况总量的设定范围;如果是,则所述相对比句子的相似度达到了设定范围。5.根据权利要求1所述的中文文章查重方法,其特征在于,所述待查文章和所述文章库中的文章均按照语句结束符号拆分为句子;其中,所述语句结束符号包括句号、问号和感叹号。6.一种中文文章查重系统,其特征在于,包括:拆分模块,用于将...

【专利技术属性】
技术研发人员:王新宇
申请(专利权)人:中国联合网络通信集团有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1