一种基于文本向量化和空间聚类的文本去重方法技术

技术编号:42484564 阅读:12 留言:0更新日期:2024-08-21 13:03
本发明专利技术公开了一种基于文本向量化和空间聚类的文本去重方法,包括:选取待处理文本中最长的M个句子作为特征句;将选取的特征句输入Bert,将最后一层隐层的输出作为特征向量;将Bert后对接文本分类器,将分类器的前3概率的输出作为预分类结果;将文本的特征向量进行降维;加权聚类生成初始文本库;利用预分类概率和向量距离生成加权距离;根据两个文本特征向量的加权距离进行聚类,生成N个簇中心;当某个类簇内的紧密度低于阈值,将该类簇进行二次聚类,重新生成两个类簇。本发明专利技术通过采用Bert对训练语料进行特征向量化和预分类,特征向量更精准,采用加权空间聚类方法,将文本分类概率加入计算,提升聚类效果,提升准确率。

【技术实现步骤摘要】

本专利技术涉及数据处理的,尤其涉及一种基于文本向量化和空间聚类的文本去重方法


技术介绍

1、随着全球生成和存储的数据越来越多,对存储容量的需求将继续以稳定的速度增长。但无论是云存储系统,还是传统的数据存储系统,都存在大量的冗余数据,有的系统中数据重复率高达70%~90%。越来越多的研究者开始关注解决数据冗余问题以缩减存储空间,重复数据删除技术应运而生。重复数据删除技术的核心思想是只存储唯一的数据对象,对于其他重复数据则通过存储指针代替,指针指向该唯一数据对象。

2、目前类似的文本去重方案一种是利用hash生成文本指纹去重,对短文本效果好,长文本准确率不高;另一种采用向量聚类方案,但不考虑文本分类,聚类效果不理想;文本指纹方式大多采用关键词进行hash编码,利用距离计算相似度,该方法对关键词敏感,长文本时和关键词不明显时效果较差;另一种向量聚类方案,针对全量数据进行计算,增加了文本相似度计算量,同时忽略文本分类,准确率不佳。


技术实现思路

1、本部分的目的在于概述本专利技术的实施例的一些方面以及简本文档来自技高网...

【技术保护点】

1.一种基于文本向量化和空间聚类的文本去重方法,其特征在于:包括:

2.根据权利要求1所述的一种基于文本向量化和空间聚类的文本去重方法,其特征在于:所述S2中特征句通过预训练模型Bert生成文本的特征向量V和分类概率P。

3.根据权利要求2所述的一种基于文本向量化和空间聚类的文本去重方法,其特征在于:所述S4中将特征向量由768维降为128维。

4.根据权利要求3所述的一种基于文本向量化和空间聚类的文本去重方法,其特征在于:所述S5中加权距离根据i最高分类概率Pi1对应j分类概率Pji差值进行计算。

5.根据权利要求4所述的一种基于文本向量...

【技术特征摘要】

1.一种基于文本向量化和空间聚类的文本去重方法,其特征在于:包括:

2.根据权利要求1所述的一种基于文本向量化和空间聚类的文本去重方法,其特征在于:所述s2中特征句通过预训练模型bert生成文本的特征向量v和分类概率p。

3.根据权利要求2所述的一种基于文本向量化和空间聚类的文本去重方法,其特征在于:所述s4中将特征向量由768维降为128维。

4.根据权利要求3所述的一种基于文本向量化和空间聚类的文本去重方法,其特征在于:所述s5中加权距离根据i最高分类概率pi1对应j分类概率pji差值进行计算。

5.根据权利要求4所述的一种基于文本向量化和空间聚类的文本去重方法,其特征在于:所述计算公式如下:

6.根据权利要求5所述的一种基于文本向量化和空间聚类的文本去重方法,其特征在于:所述s7中簇内进...

【专利技术属性】
技术研发人员:刘重阳刘天琪王昆
申请(专利权)人:天翼云科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1