一种基于同义关联词的文本对比方法技术

技术编号：17704936 阅读：105 留言：0更新日期：2018-04-14 17:54

本发明专利技术涉及一种基于同义关联词的文本对比方法，属于自然语言处理技术领域。本发明专利技术本发明专利技术对Simhash算法中TF‑IDF算法进行了改进，首先，对文章预处理，去除文章中无意义的词，留下实义词；然后，抽取与文章主题相关的同义词，及同义词的相关词进行权重的加权和调整，再将以上词进行权重排序后，选取关键字权重最大的前N个词作为文本的特征词，计算文章的Simhash值；最后，重复以上步骤，计算对比文章的特征词Simhash值，从两者之间的汉明距离，判断两篇文章的是否相似。本发明专利技术主要解决Simhash算法文本查重效果慢，准确率低等问题，大大提高了文本查重的效率和计算准确性。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于同义关联词的文本对比方法
本专利技术涉及一种基于同义关联词的文本对比方法，属于自然语言处理

技术介绍
在数据挖掘及知识信息发现领域，大量数据的喷涌带来的一大挑战就是信息的大量重复，在国内，据统计有30％重复网页，而重复信息太多是造成了检索困难的主要问题之一。simhash算法专门解决亿万级网页去重问题，当然在文本去重方面应用也非常广泛，不过相比网页去重更加复杂，因为中文句式结构特殊且一词多义。此算法主要的核心思想就是降维，将高维的特征向量映射到低维的特征向量，通过计算两个向量的汉明距离判断两文档相似或重复程度。在信息论中，两个等长字符串之间的汉明距离是两字符串之间对应位置数字不同的个数。比如，1000110和1000001的汉明距离为3。基于以上所述，可以推广到文本特征值进行查重，而且是基于反映主题同义词及相关词权重进行加权，选取权重最大的前N个词作为特征词计算进行查重。
技术实现思路
本专利技术提供了一种基于同义关联词的文本对比方法，以用于Simhash算法文本查重效果慢，准确率低等问题，本专利技术大大提高了文本查重的效率和计算准确性。本专利技术的技术方案是：一种基于同义关联词的文本对比方法，所述方法的具体步骤如下：Step1、对文章进行预处理；预处理包括：分词，去停用词，分别使用分词包，停用词库进行分词和去停用词；Step2、选取文章主题词的同义词及同义词的相关词进行权重加权和调整，之后选出文章的特征词；Step2.1、根据相似度查找文章主题词的同义词；Step2.2、同义词加权；Step2.3、同义词的相关词的权重加权和调整；Step2...
一种基于同义关联词的文本对比方法

【技术保护点】
一种基于同义关联词的文本对比方法，其特征在于：所述方法的具体步骤如下：Step1、对文章进行预处理；预处理包括：分词，去停用词，分别使用分词包，停用词库进行分词和去停用词；Step2、选取文章主题词的同义词及同义词的相关词进行权重加权和调整，之后选出文章的特征词；Step2.1、根据相似度查找文章主题词的同义词；Step2.2、同义词加权；Step2.3、同义词的相关词的权重加权和调整；Step2.4、计算完所有词语的权重后，找出权重最大的前N个词语作为文本的特征词；其中30≤N≤50；Step3、根据选出的特征词计算其Simhash值来作为被查文章的Simhash值；Step4、重复以上步骤，计算对比文章Simhash值，然后计算两者的汉明距离，当两篇文档的汉明距离小于20，说明这两篇文章相似度很高，否则认为两篇文章的相似度不高。

【技术特征摘要】
1.一种基于同义关联词的文本对比方法，其特征在于：所述方法的具体步骤如下：Step1、对文章进行预处理；预处理包括：分词，去停用词，分别使用分词包，停用词库进行分词和去停用词；Step2、选取文章主题词的同义词及同义词的相关词进行权重加权和调整，之后选出文章的特征词；Step2.1、根据相似度查找文章主题词的同义词；Step2.2、同义词加权；Step2.3、同义词的相关词的权重加权和调整；Step2.4、计算完所有词语的权重后，找出权重最大的前N个词语作为文本的特征词；其中30≤N≤50；Step3、根据选出的特征词计算其Simhash值来作为被查文章的Simhash值；Step4、重复以上步骤，计算对比文章Simhash值，然后计算两者的汉明距离，当两篇文档的汉明距离小于20，说明这两篇文章相似度很高，否则认为两篇文章的相似度不高。2.根据权利要求1所述的基于同义关联词的文本对比方法，其特征在于：所述步骤Step2.1中，文章主题词的同义词的查找通过《同义词词林》再结合相似度进行查找，采用相似度计算公式计算2个词语的相似度，表示为：其中，Simj(S1,S2)为2个概念的义原描述式，βi是可调参数，而且有β1+β2+β3+β4＝1，β1≥β2≥β3≥β4；同义词集合指词语t和与t在文本中有同义关系的所有词语的集合，用S＝{S1,S2,S3,...,Sm}表示。3.根据权利要求2所述的基于同义关联词的文本对比方法，其特征在于：所述步骤Step2.2中，同义词加权的方式为：同义...

【专利技术属性】
技术研发人员：杜庆治，陈鸣，邵玉斌，龙华，
申请(专利权)人：昆明理工大学，
类型：发明
国别省市：云南,53

全部详细技术资料下载我是这个专利的主人