一种文本相似度检测方法技术

技术编号:11540424 阅读:73 留言:0更新日期:2015-06-03 14:31
本发明专利技术公开了一种文本相似度检测方法,包含如下步骤:根据百度百科词条的分类标签构建类词典;输入需要对比的两篇中文文献,并分别对两篇中文文献进行预处理;将两篇所述中文文献中的词语进行过滤,去除重复词语,生成词项集,并将所述词项集中的词项分为专业词汇集和普通词汇集;将两篇所述中文文献的中的两个句子中的专业词汇对齐,并且将两个句子中的普通词汇对齐,并分别计算各个词汇相对于其对应性质的词汇的相似度;计算两篇所述中文文献中各个句子的相似度。本发明专利技术的方法很大程度上节省了人力资源,提高了计算机网络系统对中文的判别准确度和判别速度。

【技术实现步骤摘要】
一种文本相似度检测方法
本专利技术涉及自然语言处理领域,更具体涉及一种文本相似度检测方法。
技术介绍
随着计算机技术的飞速发展和互联网的快速普及,人类的信息交流变得越来越方便快捷,这为一些人的剽窃、抄袭等不道德的行为提供了很大的便利条件。特别地,在高校中,由于教师没有足够的时间和精力对论文式作业进行抄袭检查,同时又缺乏有效的抄袭自动检测工具,所以学生抄袭现象越来越严重。针对这一问题,本专利技术进行中文论文式作业(简称“中文论文”)的抄袭自动检测技术研究。其实,论文抄袭检测是一个文档相似度检测问题,即检测两篇文档的相似度,如果相似度足够高,可以视之为抄袭。目前,针对论文抄袭的文档相似度计算和检测方法可以分为两大类:基于数字指纹的和基于词频统计的。前者适合全文抄袭即“一字不漏”的复制,计算量比较小;后者适合带有增删改等操作的复杂式抄袭,计算量比较大。目前,随着防抄袭软件的日益流行,为避免被识破,抄袭者往往合成多个论文,并在原文基础上进行一定程度的修改。针对这种现象,本专利技术重点研究基于词频统计的文档相似度计算方法,提高对复杂式抄袭的自动检测效果。目前,大部分文档相似度计算技术都是针对英文展开,特别是著名的国际评测SemanticTextualSimilarity(STS)。STS是专门针对英文文档相似度计算举办的一个评测,其极大地汇集了各种文档相似度计算技术,有效地推动了文档相似度计算的研究。相对英文,中文存在分词、资源相对比较缺乏等问题。首先,中文分词错误还直接影响后续的相似度计算效果。其次,由于缺乏像英文WordNet这样大规模的词典,基于词典的词相似计算在中文论文抄袭自动检测中往往应用不够广泛或实际效果不好,这导致目前的中文论文抄袭自动检测装置或方法不能很好地检测到哪些专业论文的抄袭现象,而高校论文往往具有很强的专业性、领域性。因此,需要开发针对专业论文的中文论文抄袭自动检测方法。
技术实现思路
(一)要解决的技术问题本专利技术要解决的技术问题是提出一种文本相似度检测方法,能够根据不同的领域,采用不同策略对相似度进行自动检测和判断,同时节省人力资源,提高计算机网络系统对中文的判别准确度和判别速度。(二)技术方案为了解决上述技术问题,本专利技术提供了一种文本相似度检测方法,所述方法包括以下步骤:S1、根据百度百科词条的分类标签构建类词典;S2、输入需要对比的两篇中文文献,并分别对两篇中文文献进行预处理;S3、将两篇所述中文文献中的词语进行过滤,去除重复词语,生成词项集,并将所述词项集中的词项分为专业词汇集和普通词汇集;S4、将两篇所述中文文献的中的两个句子中的专业词汇对齐,并且将两个句子中的普通词汇对齐,并分别计算各个词汇相对于其对应性质的词汇的相似度;S5、计算两篇所述中文文献中各个句子的相似度。优选地,所述步骤S1中,采用迭代的方法提取每一个词条的所有的祖先节点以及权重,所述祖先节点为对应词条的上位词,对应的所述权重反应了所述词条与其祖先节点的语义关系:权重越大,对应的空间距离越小,语义越相近。优选地,所述步骤S2中,对中文文献进行预处理具体包括:将所述中文文献按标点符号进行分句;对所有的句子进行分词,同时去除其中的停用词、单字和标点符号。优选地,将所述词项集分为专业词汇集和普通词汇集具体包括以下步骤:S31、如果词项是百度百科词条,并且所述词条的分类标签将其标注为通用词典的常用词,则所述词项为普通词汇,否则进行步骤S32;S32、如果词项出现在美国宾州树库资源库中,结合所述词项在美国宾州树库资源库中的词性标签POS和如下规则判断其是否为普通词汇:若所述词项不出现在类词典中,则所属词项为普通词汇;若所述词项出现在类词典中,并且所述词项的前k个按照权重排序的祖先节点均不含中文文献所属领域的代表词汇,则该词项为普通词汇,否则为专业词汇,其中k>1;S33、由普通词汇构成普通词汇集,由专业词汇构成专业词汇集。优选地,所述步骤S4中计算各个词汇相对于其对应性质的词汇的相似度具体包括:对于所述普通词汇的相似度的计算:一个句子中的普通词汇,通过采用基于潜在语义分析LSA算法,分别计算其与另一句子中各个普通词汇的相似度,并选择得到的多个相似度值中的最大值作为所述普通词汇对应的相似度的值;对于所述专业词汇的相似度的计算:一个句子中的专业词汇,通过采用基于类词典的词相似度计算方法,分别计算其与另一句子中各个专业词汇的相似度,并选择得到的多个相似度值中的最大值作为所述专业词汇对应的相似度的值。优选地,所述基于类词典的词相似度计算中,对于每个词项,其在类词典中的祖先节点和权重构成一个向量,词项用向量来表示,词相似度计算转化成向量相似度计算。优选地,所述步骤S5具体为:对于两篇所述中文文献中的各个句子,分别计算其包含的各个词汇的相似度的平均值,作为对应句子的相似度。优选地,所述方法还包括以下步骤:S7、把句子相似度的计算结果传递给计算机客户端,并进行可视化展示。(三)有益效果本专利技术提供了一种文本相似度检测方法,本专利技术提供的方法根据词汇类型(专业词汇和普通词汇)采用不同策略对词相似度进行自动检测和判断,很大程度上节省了人力资源,提高了计算机网络系统对中文的判别准确度和判别速度;本专利技术的方法不仅可以应用于中文论文查重,也可以用于其它的中文专利文献和非专利文献的自动检测。附图说明图1为本专利技术的一种文本相似度检测方法流程图;图2为本专利技术的一个较佳实施例的一种文本相似度检测方法流程图。具体实施方式为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术的一种文本相似度检测方法流程图;所述方法包括以下步骤:S1、根据百度百科词条的分类标签构建类词典;S2、输入需要对比的两篇中文文献,并分别对两篇中文文献进行预处理;S3、将两篇所述中文文献中的词语进行过滤,去除重复词语,生成词项集,并将所述词项集中的词项分为专业词汇集和普通词汇集;S4、将两篇所述中文文献的中的两个句子中的专业词汇对齐,并且将两个句子中的普通词汇对齐,并分别计算各个词汇相对于其对应性质的词汇的相似度;S5、计算两篇所述中文文献中各个句子的相似度。所述步骤S1中,采用迭代的方法提取每一个词条的所有的祖先节点以及权重,所述祖先节点为对应词条的上位词,对应的所述权重反应了所述词条与其祖先节点在真实本体中的相对关系(即对应的所述权重反应了所述词条与其祖先节点的语义关系):权重越大,对应的空间距离越小,语义越接近。所述步骤S2中,对中文文献进行预处理具体包括:将所述中文文献按标点符号进行分句;对所有的句子进行分词,同时去除其中的停用词、单字和标点符号。将所述词项集分为专业词汇集和普通词汇集具体包括以下步骤:S31、如果词项是百度百科词条,并且所述词条的分类标签将其标注为通用词典的常用词(例如,“词语”、“词汇”、“词典”、“汉语”等),,则所述词项为普通词汇,否则进行步骤S32;S32、如果词项出现在美国宾州树库资源库中,结合所述词项在美国宾州树库资源库中的词性标签POS和如下本文档来自技高网
...

【技术保护点】
一种文本相似度检测方法,其特征在于,所述方法包括以下步骤:S1、根据百度百科词条的分类标签构建类词典;S2、输入需要对比的两篇中文文献,并分别对两篇中文文献进行预处理;S3、将两篇所述中文文献中的词语进行过滤,去除重复词语,生成词项集,并将所述词项集中的词项分为专业词汇集和普通词汇集;S4、将两篇所述中文文献中的两个句子中的专业词汇对齐,并且将两个句子中的普通词汇对齐,并分别计算各个词汇相对于其对应性质的词汇的相似度;S5、计算两篇所述中文文献中各个句子的相似度。

【技术特征摘要】
1.一种文本相似度检测方法,其特征在于,所述方法包括以下步骤:S1、根据百度百科词条的分类标签构建类词典;S2、输入需要对比的两篇中文文献,并分别对两篇中文文献进行预处理;S3、将两篇所述中文文献中的词语进行过滤,去除重复词语,生成词项集,并将所述词项集中的词项分为专业词汇集和普通词汇集;S4、将两篇所述中文文献中的两个句子中的专业词汇对齐,并且将两个句子中的普通词汇对齐,并分别计算各个词汇相对于其对应性质的词汇的相似度;S5、计算两篇所述中文文献中各个句子的相似度;其中,将所述词项集分为专业词汇集和普通词汇集具体包括以下步骤:S31、如果词项是百度百科词条,并且所述词条的分类标签将其标注为通用词典的常用词,则所述词项为普通词汇,否则进行步骤S32;S32、如果词项出现在美国宾州树库资源库中,结合所述词项在美国宾州树库资源库中的词性标签POS和如下规则判断其是否为普通词汇:若所述词项不出现在类词典中,则所属词项为普通词汇;若所述词项出现在类词典中,并且所述词项的前k个按照权重排序的祖先节点均不含中文文献所属领域的代表词汇,则该词项为普通词汇,否则为专业词汇,其中k>1;S33、由普通词汇构成普通词汇集,由专业词汇构成专业词汇集。2.根据权利要求1所述的方法,其特征在于,所述步骤S1中,采用迭代的方法提取每一个词条的所有的祖先节点以及权重,所述祖先节点为对应词条的上位词,对应的所述权重反应了所述词条与其祖先节...

【专利技术属性】
技术研发人员:陈瑛高万林季烜任延昭张港红
申请(专利权)人:中国农业大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1