一种文本相似度检测方法技术

技术编号：11540424 阅读：73 留言：0更新日期：2015-06-03 14:31

本发明专利技术公开了一种文本相似度检测方法，包含如下步骤：根据百度百科词条的分类标签构建类词典；输入需要对比的两篇中文文献，并分别对两篇中文文献进行预处理；将两篇所述中文文献中的词语进行过滤，去除重复词语，生成词项集，并将所述词项集中的词项分为专业词汇集和普通词汇集；将两篇所述中文文献的中的两个句子中的专业词汇对齐，并且将两个句子中的普通词汇对齐，并分别计算各个词汇相对于其对应性质的词汇的相似度；计算两篇所述中文文献中各个句子的相似度。本发明专利技术的方法很大程度上节省了人力资源，提高了计算机网络系统对中文的判别准确度和判别速度。

全部详细技术资料下载

【技术实现步骤摘要】
一种文本相似度检测方法
本专利技术涉及自然语言处理领域，更具体涉及一种文本相似度检测方法。
技术介绍
随着计算机技术的飞速发展和互联网的快速普及，人类的信息交流变得越来越方便快捷，这为一些人的剽窃、抄袭等不道德的行为提供了很大的便利条件。特别地，在高校中，由于教师没有足够的时间和精力对论文式作业进行抄袭检查，同时又缺乏有效的抄袭自动检测工具，所以学生抄袭现象越来越严重。针对这一问题，本专利技术进行中文论文式作业(简称“中文论文”)的抄袭自动检测技术研究。其实，论文抄袭检测是一个文档相似度检测问题，即检测两篇文档的相似度，如果相似度足够高，可以视之为抄袭。目前，针对论文抄袭的文档相似度计算和检测方法可以分为两大类：基于数字指纹的和基于词频统计的。前者适合全文抄袭即“一字不漏”的复制，计算量比较小；后者适合带有增删改等操作的复杂式抄袭，计算量比较大。目前，随着防抄袭软件的日益流行，为避免被识破，抄袭者往往合成多个论文，并在原文基础上进行一定程度的修改。针对这种现象，本专利技术重点研究基于词频统计的文档相似度计算方法，提高对复杂式抄袭的自动检测效果。目前，大部分文档相似度计算技术都是针对英文展开，特别是著名的国际评测SemanticTextualSimilarity(STS)。STS是专门针对英文文档相似度计算举办的一个评测，其极大地汇集了各种文档相似度计算技术，有效地推动了文档相似度计算的研究。相对英文，中文存在分词、资源相对比较缺乏等问题。首先，中文分词错误还直接影响后续的相似度计算效果。其次，由于缺乏像英文WordNet这样大规模的词典，基于词典的词相似计...

【技术保护点】
一种文本相似度检测方法，其特征在于，所述方法包括以下步骤：S1、根据百度百科词条的分类标签构建类词典；S2、输入需要对比的两篇中文文献，并分别对两篇中文文献进行预处理；S3、将两篇所述中文文献中的词语进行过滤，去除重复词语，生成词项集，并将所述词项集中的词项分为专业词汇集和普通词汇集；S4、将两篇所述中文文献中的两个句子中的专业词汇对齐，并且将两个句子中的普通词汇对齐，并分别计算各个词汇相对于其对应性质的词汇的相似度；S5、计算两篇所述中文文献中各个句子的相似度。

【技术特征摘要】
1.一种文本相似度检测方法，其特征在于，所述方法包括以下步骤：S1、根据百度百科词条的分类标签构建类词典；S2、输入需要对比的两篇中文文献，并分别对两篇中文文献进行预处理；S3、将两篇所述中文文献中的词语进行过滤，去除重复词语，生成词项集，并将所述词项集中的词项分为专业词汇集和普通词汇集；S4、将两篇所述中文文献中的两个句子中的专业词汇对齐，并且将两个句子中的普通词汇对齐，并分别计算各个词汇相对于其对应性质的词汇的相似度；S5、计算两篇所述中文文献中各个句子的相似度；其中，将所述词项集分为专业词汇集和普通词汇集具体包括以下步骤：S31、如果词项是百度百科词条，并且所述词条的分类标签将其标注为通用词典的常用词，则所述词项为普通词汇，否则进行步骤S32；S32、如果词项出现在美国宾州树库资源库中，结合所述词项在美国宾州树库资源库中的词性标签POS和如下规则判断其是否为普通词汇：若所述词项不出现在类词典中，则所属词项为普通词汇；若所述词项出现在类词典中，并且所述词项的前k个按照权重排序的祖先节点均不含中文文献所属领域的代表词汇，则该词项为普通词汇，否则为专业词汇，其中k＞1；S33、由普通词汇构成普通词汇集，由专业词汇构成专业词汇集。2.根据权利要求1所述的方法，其特征在于，所述步骤S1中，采用迭代的方法提取每一个词条的所有的祖先节点以及权重，所述祖先节点为对应词条的上位词，对应的所述权重反应了所述词条与其祖先节...

【专利技术属性】
技术研发人员：陈瑛，高万林，季烜，任延昭，张港红，
申请(专利权)人：中国农业大学，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人