【技术实现步骤摘要】
本专利技术涉及数据处理的,尤其涉及一种基于文本向量化和空间聚类的文本去重方法。
技术介绍
1、随着全球生成和存储的数据越来越多,对存储容量的需求将继续以稳定的速度增长。但无论是云存储系统,还是传统的数据存储系统,都存在大量的冗余数据,有的系统中数据重复率高达70%~90%。越来越多的研究者开始关注解决数据冗余问题以缩减存储空间,重复数据删除技术应运而生。重复数据删除技术的核心思想是只存储唯一的数据对象,对于其他重复数据则通过存储指针代替,指针指向该唯一数据对象。
2、目前类似的文本去重方案一种是利用hash生成文本指纹去重,对短文本效果好,长文本准确率不高;另一种采用向量聚类方案,但不考虑文本分类,聚类效果不理想;文本指纹方式大多采用关键词进行hash编码,利用距离计算相似度,该方法对关键词敏感,长文本时和关键词不明显时效果较差;另一种向量聚类方案,针对全量数据进行计算,增加了文本相似度计算量,同时忽略文本分类,准确率不佳。
技术实现思路
1、本部分的目的在于概述本专利技术的实
...【技术保护点】
1.一种基于文本向量化和空间聚类的文本去重方法,其特征在于:包括:
2.根据权利要求1所述的一种基于文本向量化和空间聚类的文本去重方法,其特征在于:所述S2中特征句通过预训练模型Bert生成文本的特征向量V和分类概率P。
3.根据权利要求2所述的一种基于文本向量化和空间聚类的文本去重方法,其特征在于:所述S4中将特征向量由768维降为128维。
4.根据权利要求3所述的一种基于文本向量化和空间聚类的文本去重方法,其特征在于:所述S5中加权距离根据i最高分类概率Pi1对应j分类概率Pji差值进行计算。
5.根据权利要求4所
...【技术特征摘要】
1.一种基于文本向量化和空间聚类的文本去重方法,其特征在于:包括:
2.根据权利要求1所述的一种基于文本向量化和空间聚类的文本去重方法,其特征在于:所述s2中特征句通过预训练模型bert生成文本的特征向量v和分类概率p。
3.根据权利要求2所述的一种基于文本向量化和空间聚类的文本去重方法,其特征在于:所述s4中将特征向量由768维降为128维。
4.根据权利要求3所述的一种基于文本向量化和空间聚类的文本去重方法,其特征在于:所述s5中加权距离根据i最高分类概率pi1对应j分类概率pji差值进行计算。
5.根据权利要求4所述的一种基于文本向量化和空间聚类的文本去重方法,其特征在于:所述计算公式如下:
6.根据权利要求5所述的一种基于文本向量化和空间聚类的文本去重方法,其特征在于:所述s7中簇内进...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。