一种基于改进的simhash文本对比方法技术

技术编号:19388825 阅读:32 留言:0更新日期:2018-11-10 02:00
本发明专利技术涉及一种基于改进的simhash文本对比方法,属于查重领域。本发明专利技术对文章标题出现次数较高的词的权重进行设置,进而提高查重的准确率;对文章的正文分词后,对词的词性进行标注,而且词性的权重进行设置,设置规则为名词>动词,进而提高查重的准确率;对于词分布不均,通过改造IDF计算公式,考虑到词在类中及类间情况,从而大大提高查重的准确率。

An improved simhash text comparison method

The invention relates to an improved simhash text contrast method, which belongs to the field of checking weights. The invention sets the weight of words with higher number of occurrences of article titles, thereby improving the accuracy of duplication checking; tags the part of speech of the article after word segmentation, and sets the weight of part of speech, and sets rules as noun > verb, thereby improving the accuracy of duplication checking; for uneven distribution of words, through modification. The IDF formula is used to take into account the situation of words in classes and between classes, thus greatly improving the accuracy of duplicate checking.

【技术实现步骤摘要】
一种基于改进的simhash文本对比方法
本专利技术涉及一种基于改进的simhash文本对比方法,属于查重领域。
技术介绍
在数据挖掘及知识信息发现领域,大量数据的喷涌带来的一大挑战就是信息的大量重复,在国内,据统计有30%重复网页,而重复信息太多是造成了检索困难的主要问题之一。simhash算法专门解决亿万级网页去重问题,当然在文本去重方面应用也非常广泛,不过相比网页去重更加复杂,因为中文句式结构特殊且一词多义。
技术实现思路
本专利技术提供了一种基于改进的simhash文本对比方法,以用于实现文本的相似性判断。本专利技术的技术方案是:一种基于改进的simhash文本对比方法,所述方法步骤如下:S1、对文章进行预处理;其中预处理包括:分词、去停用词,分别使用分词包、停用词库进行分词和去停用词;S2、Hash:用md5的方法计算每一个分词的哈希值,计算出的值转换成二进制的数值;S3、权重:对分词的每个词的结果利用TF_IDF算法计算其权重,计算每个词的权重的步骤:①计算被查文章分词后每个词的词频:TF=n1/n2其中,TF表示某词的词频,n1表示对应词在此文章中出现的次数,n2表示此文章的总词数;②计算逆向文档频率IDF:其中,p(mk)表示词mk在当前类别中的频率,p(mk)'表示词mk在除了当前类别的其他类别中的频率;③词的权重:TF_IDF=TF*IDF其中,TF_IDF表示词权重,词频与逆向文档频率对应同一个词;S4、权重调整:找出被查文章标题出现的词,对于每一个出现的词权重都在步骤S3计算出的权重基础上加1,对文章的正文分词后,对词的词性进行标注,而且词性的权重进行设置,设置规则为在步骤S3计算出的权重基础上名词加5,动词加4;S5、加权:对步骤S2中每一个所分的词转化成二进制的哈希值,每一位进行判断,如果该位为1,则用该位的正权重;如果为0,则用该位的负权重值,直到每一位二进制哈希值判断完成时为止,最后每一个词形成一串数字序列;S6、累加:将被查文章分词后的每一词,计算的加权结果的每一位对应累加起来,最终形成此该文章的累加结果;S7、降维:将该文章累加的结果形成的数字序列的每一位进行降维,如果被判断位大于0,则该位置成1;否则,则该位置成0;直到每一位判断完为止,最后则形成此文章的局部敏感哈希值;S8、查重:将对比的文章按照以上步骤计算其局部敏感哈希值,再计算与被查文章两者之间的汉明距离来判定两者的相似性。所述步骤S6中,进行累加时,累加结果不进位。所述步骤S8中,汉明距离小于33,则判定两者相似。本专利技术的有益效果是:1、对文章标题出现次数较高的词的权重进行设置,进而提高查重的准确率;2、对文章的正文分词后,对词的词性进行标注,而且词性的权重进行设置,设置规则为名词>动词,进而提高查重的准确率;3、对于词分布不均,通过改造IDF计算公式,考虑到词在类中及类间情况,从而大大提高查重的准确率。附图说明图1为simhash值的形成图。具体实施方式实施例1:如图1所示,一种基于改进的simhash文本对比方法,所述方法步骤如下:S1、对文章进行预处理;其中预处理包括:分词、去停用词,分别使用分词包、停用词库进行分词和去停用词;S2、Hash:用md5的方法计算每一个分词的哈希值,计算出的值转换成二进制的数值,以便后面对权重进行加权;S3、权重:对分词的每个词的结果利用TF_IDF算法计算其权重,计算每个词的权重的步骤:①计算被查文章分词后每个词的词频:TF=n1/n2其中,TF表示某词的词频,n1表示对应词在此文章中出现的次数,n2表示此文章的总词数;②计算逆向文档频率IDF:对IDF计算改进如下:在中,当p(mk)很大,IDF的绝对值反而小,则对它取反,根据对数函数的特性,自变量大于0,IDF要为正值,最后修正IDF得:其中,p(mk)表示词mk在当前类别中的频率,p(mk)'表示词mk在除了当前类别的其他类别中的频率;如表1:文档有C1和C2两类,词m1在当前类C1中有9篇文章出现过,而C1类文章总共有14篇,所以p(m1)=9/14;词m1在其他类,即词m1在C2类中一篇文章出现过,而C2类中总共有6篇文章p(m1)'=1/6,则m1的逆向频率:如果语料库中的文档分成三类,而m1属于第一类,关于p(m1)'计算为:词m1在除第一类之外的第二类和第三类出现的文章篇数/除第一类之外的第二类和第三类文章总篇数。表1词m1、m2的分布类别m1m2C195C215③词的权重:TF_IDF=TF*IDF其中,TF_IDF表示词权重,词频与逆向文档频率对应同一个词;如:假设m1为简明这个词,在被查文章出现过10次,而文章中有100词,则TF=0.1,则:S4、权重调整:找出被查文章标题出现的词,对于每一个出现的词权重都在步骤S3计算出的权重基础上加1,对文章的正文分词后,对词的词性进行标注,而且词性的权重进行设置,设置规则为在步骤S3计算出的权重基础上名词加5,动词加4;S5、加权:对步骤S2中每一个所分的词转化成56位二进制的哈希值,每一位进行判断,如果该位为1,则用该位的正权重;如果为0,则用该位的负权重值,直到每一位二进制哈希值判断完成时为止,最后每一个词形成一串数字序列;S6、累加:将被查文章分词后的每一词,计算的加权结果的每一位对应累加起来,最终形成此该文章的累加结果;S7、降维:将该文章累加的结果形成的数字序列的每一位进行降维,如果被判断位大于0,则该位置成1;否则,则该位置成0;直到每一位判断完为止,最后则形成此文章的局部敏感哈希值;S8、查重:将对比的文章按照以上步骤计算其局部敏感哈希值,再计算与被查文章两者之间的汉明距离来判定两者的相似性。进一步地,可以设置所述步骤S6中,进行累加时,累加结果不进位。进一步地,可以设置所述步骤S8中,汉明距离小于33,则判定两者相似。上面结合附图对本专利技术的具体实施方式作了详细说明,但是本专利技术并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本专利技术宗旨的前提下作出各种变化。本文档来自技高网...

【技术保护点】
1.一种基于改进的simhash文本对比方法,其特征在于:所述方法步骤如下:S1、对文章进行预处理;其中预处理包括:分词、去停用词,分别使用分词包、停用词库进行分词和去停用词;S2、Hash:用md5的方法计算每一个分词的哈希值,计算出的值转换成二进制的数值;S3、权重:对分词的每个词的结果利用TF_IDF算法计算其权重,计算每个词的权重的步骤:①计算被查文章分词后每个词的词频:TF=n1/n2其中,TF表示某词的词频,n1表示对应词在此文章中出现的次数,n2表示此文章的总词数;②计算逆向文档频率IDF:

【技术特征摘要】
1.一种基于改进的simhash文本对比方法,其特征在于:所述方法步骤如下:S1、对文章进行预处理;其中预处理包括:分词、去停用词,分别使用分词包、停用词库进行分词和去停用词;S2、Hash:用md5的方法计算每一个分词的哈希值,计算出的值转换成二进制的数值;S3、权重:对分词的每个词的结果利用TF_IDF算法计算其权重,计算每个词的权重的步骤:①计算被查文章分词后每个词的词频:TF=n1/n2其中,TF表示某词的词频,n1表示对应词在此文章中出现的次数,n2表示此文章的总词数;②计算逆向文档频率IDF:其中,p(mk)表示词mk在当前类别中的频率,p(mk)'表示词mk在除了当前类别的其他类别中的频率;③词的权重:TF_IDF=TF*IDF其中,TF_IDF表示词权重,词频与逆向文档频率对应同一个词;S4、权重调整:找出被查文章标题出现的词,对于每一个出现的词权重都在步骤S3计算出的权重基础上加1,对文章的正文分词后,对词的词性进行标注,而且词性的权重进行设置,设置规则...

【专利技术属性】
技术研发人员:杜庆治陈鸣邵玉斌龙华
申请(专利权)人:昆明理工大学
类型:发明
国别省市:云南,53

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1