一种基于改进的simhash文本对比方法技术

技术编号：19388825 阅读：32 留言：0更新日期：2018-11-10 02:00

本发明专利技术涉及一种基于改进的simhash文本对比方法，属于查重领域。本发明专利技术对文章标题出现次数较高的词的权重进行设置，进而提高查重的准确率；对文章的正文分词后，对词的词性进行标注，而且词性的权重进行设置，设置规则为名词>动词，进而提高查重的准确率；对于词分布不均，通过改造IDF计算公式，考虑到词在类中及类间情况，从而大大提高查重的准确率。

An improved simhash text comparison method

The invention relates to an improved simhash text contrast method, which belongs to the field of checking weights. The invention sets the weight of words with higher number of occurrences of article titles, thereby improving the accuracy of duplication checking; tags the part of speech of the article after word segmentation, and sets the weight of part of speech, and sets rules as noun > verb, thereby improving the accuracy of duplication checking; for uneven distribution of words, through modification. The IDF formula is used to take into account the situation of words in classes and between classes, thus greatly improving the accuracy of duplicate checking.

全部详细技术资料下载

【技术实现步骤摘要】
一种基于改进的simhash文本对比方法
本专利技术涉及一种基于改进的simhash文本对比方法，属于查重领域。
技术介绍
在数据挖掘及知识信息发现领域，大量数据的喷涌带来的一大挑战就是信息的大量重复，在国内，据统计有30％重复网页，而重复信息太多是造成了检索困难的主要问题之一。simhash算法专门解决亿万级网页去重问题，当然在文本去重方面应用也非常广泛，不过相比网页去重更加复杂，因为中文句式结构特殊且一词多义。
技术实现思路
本专利技术提供了一种基于改进的simhash文本对比方法，以用于实现文本的相似性判断。本专利技术的技术方案是：一种基于改进的simhash文本对比方法，所述方法步骤如下：S1、对文章进行预处理；其中预处理包括：分词、去停用词，分别使用分词包、停用词库进行分词和去停用词；S2、Hash：用md5的方法计算每一个分词的哈希值，计算出的值转换成二进制的数值；S3、权重：对分词的每个词的结果利用TF_IDF算法计算其权重，计算每个词的权重的步骤：①计算被查文章分词后每个词的词频：TF＝n1/n2其中，TF表示某词的词频，n1表示对应词在此文章中出现的次数，n2表示此文章的总词数；②计算逆向文档频率IDF：其中，p(mk)表示词mk在当前类别中的频率，p(mk)'表示词mk在除了当前类别的其他类别中的频率；③词的权重：TF_IDF＝TF*IDF其中，TF_IDF表示词权重，词频与逆向文档频率对应同一个词；S4、权重调整：找出被查文章标题出现的词，对于每一个出现的词权重都在步骤S3计算出的权重基础上加1，对文章的正文分词后，对词的词性进行标注，而...

【技术保护点】
1.一种基于改进的simhash文本对比方法，其特征在于：所述方法步骤如下：S1、对文章进行预处理；其中预处理包括：分词、去停用词，分别使用分词包、停用词库进行分词和去停用词；S2、Hash：用md5的方法计算每一个分词的哈希值，计算出的值转换成二进制的数值；S3、权重：对分词的每个词的结果利用TF_IDF算法计算其权重，计算每个词的权重的步骤：①计算被查文章分词后每个词的词频：TF＝n1/n2其中，TF表示某词的词频，n1表示对应词在此文章中出现的次数，n2表示此文章的总词数；②计算逆向文档频率IDF：

【技术特征摘要】
1.一种基于改进的simhash文本对比方法，其特征在于：所述方法步骤如下：S1、对文章进行预处理；其中预处理包括：分词、去停用词，分别使用分词包、停用词库进行分词和去停用词；S2、Hash：用md5的方法计算每一个分词的哈希值，计算出的值转换成二进制的数值；S3、权重：对分词的每个词的结果利用TF_IDF算法计算其权重，计算每个词的权重的步骤：①计算被查文章分词后每个词的词频：TF＝n1/n2其中，TF表示某词的词频，n1表示对应词在此文章中出现的次数，n2表示此文章的总词数；②计算逆向文档频率IDF：其中，p(mk)表示词mk在当前类别中的频率，p(mk)'表示词mk在除了当前类别的其他类别中的频率；③词的权重：TF_IDF＝TF*IDF其中，TF_IDF表示词权重，词频与逆向文档频率对应同一个词；S4、权重调整：找出被查文章标题出现的词，对于每一个出现的词权重都在步骤S3计算出的权重基础上加1，对文章的正文分词后，对词的词性进行标注，而且词性的权重进行设置，设置规则...

【专利技术属性】
技术研发人员：杜庆治，陈鸣，邵玉斌，龙华，
申请(专利权)人：昆明理工大学，
类型：发明
国别省市：云南,53

全部详细技术资料下载我是这个专利的主人