【技术实现步骤摘要】
一种基于改进的文本指纹算法的短文本集合相似度比较方法及系统
本专利技术涉及计算机文本信息处理
,特别是一种基于改进的文本指纹算法的短文本集合相似度比较方法及系统。
技术介绍
互联网时代网络上充斥着大量重复的内容与信息,无论对于搜索引擎的去重与过滤,媒体平台的去重与防盗版等,都需要高效,准确地对大量文本信息进行相似度比较。现有典型的文本去重方法采用指纹算法,即先对文本进行分词,然后计算文档的TF-IDF,根据TF-IDF排序,提取排序靠前的几个词作为特征词,利用HASH函数或别的规则为每个文本构造一个指纹,来作为该文本的标识,可以依据该指纹判断文本信息的重复度。现有的常见的文本指纹算法有:1、Simhash算法:Simhash是google用来处理海量文本去重的算法,同时也是一种基于LSH(localitysensitivehashing局部敏感哈希)的算法。局部敏感哈希可以将相似的字符串hash得到相似的hash值,使得相似项会比不相似项更可能的hash到一个桶中,hash到同一 ...
【技术保护点】
1.一种基于改进的文本指纹算法的短文本集合相似度比较方法,其特征在于,包括以下步骤:/n对每个文本进行分词处理,得到各个文本的单词集合;/n将每个文本的单词集合进行停用词过滤;/n对每个文本,动态设置K值,对停用词过滤后的单词集合提取K-shingle,得到各个文本的K-Shingle集合;/n根据各个文本的K-Shingle集合计算两个文本之间的相似度。/n
【技术特征摘要】 【专利技术属性】
1.一种基于改进的文本指纹算法的短文本集合相似度比较方法,其特征在于,包括以下步骤:
对每个文本进行分词处理,得到各个文本的单词集合;
将每个文本的单词集合进行停用词过滤;
对每个文本,动态设置K值,对停用词过滤后的单词集合提取K-shingle,得到各个文本的K-Shingle集合;
根据各个文本的K-Shingle集合计算两个文本之间的相似度。
2.根据权利要求1所述的一种基于改进的文本指纹算法的短文本集合相似度比较方法,其特征在于,所述对每个文本进行分词处理,得到各个文本的单词集合具体为:以中文单词为最小分词单位,对预处理后的短文本集合中的每个文本进行分词处理,得到每个文本的单词集合。
3.根据权利要求1所述的一种基于改进的文本指纹算法的短文本集合相似度比较方法,其特征在于,所述动态设置K值,对停用词过滤后的单词集合提取K-shingle,具体为,设单词集合中的单词个数为M,从K=1至K=M进行Shingle提取,并且将所有的结果合并为一个集合,即为该文本的K-Shingle集合。
技术研发人员:邱平,
申请(专利权)人:福建福诺移动通信技术有限公司,
类型:发明
国别省市:福建;35
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。