特征提取的数据去重方法、装置、电子设备及存储介质制造方法及图纸

技术编号:43466517 阅读:20 留言:0更新日期:2024-11-27 13:03
本发明专利技术提供一种特征提取的数据去重方法、装置、电子设备及存储介质,其中方法包括:基于接收的待处理文本数据,构建待处理文本数据集合;基于TF‑IDF方法,确定待处理文本数据集合中每个词语的TF‑IDF权重,并基于TF‑IDF权重,确定每个待处理文本数据的特征向量;基于特征向量,对待处理文本数据集合中的待处理文本数据进行分类,得到多个类别的待处理文本数据;基于多个类别,将待处理文本数据集合的待处理文本数据分配至多个分布式服务器进行去重处理。使得同一类别的待处理文本数据分配至同一个分布式服务器。每个分布式服务器可以独立地进行去重处理,无需依赖中心服务器的实时计算,提升了数据去重效率。

【技术实现步骤摘要】

本专利技术涉及计算机,尤其涉及一种特征提取的数据去重方法、装置、电子设备及存储介质


技术介绍

1、现有的数据去重方法主要基于比较和匹配的原理,通过对数据进行逐个比较来检测重复项。

2、现有的基于比较和匹配实现的数据去重方法,在处理大规模数据时面临着计算复杂度高和效率低的挑战。另外,对于文本数据而言,简单的比较方法可能无法准确地判断语义上相似但不完全相同的文本,导致数据去重效率较低。


技术实现思路

1、本专利技术提供一种特征提取的数据去重方法、装置、电子设备及存储介质,用以提升数据去重的效率。

2、本专利技术提供一种特征提取的数据去重方法,包括如下步骤:

3、基于接收的多个分布式服务器发送的待处理文本数据以及多个数据源发送的待处理文本数据,构建待处理文本数据集合;

4、基于词频-逆文本频率tf-idf方法,确定所述待处理文本数据集合中每个词语的tf-idf权重,并基于所述tf-idf权重,确定每个待处理文本数据的特征向量;

5、基于所述每个待处理文本本文档来自技高网...

【技术保护点】

1.一种特征提取的数据去重方法,其特征在于,所述方法包括:

2.根据权利要求1所述的特征提取的数据去重方法,其特征在于,所述基于所述每个待处理文本数据的特征向量,对所述待处理文本数据集合中的待处理文本数据进行分类,得到多个类别的待处理文本数据,包括:

3.根据权利要求2所述的特征提取的数据去重方法,其特征在于,所述待处理文本数据的特征向量的确定公式为:

4.根据权利要求1所述的特征提取的数据去重方法,其特征在于,所述基于词频-逆文本频率TF-IDF方法,确定所述待处理文本数据集合中每个词语的TF-IDF权重,包括:

5.根据权利要求1所述的...

【技术特征摘要】

1.一种特征提取的数据去重方法,其特征在于,所述方法包括:

2.根据权利要求1所述的特征提取的数据去重方法,其特征在于,所述基于所述每个待处理文本数据的特征向量,对所述待处理文本数据集合中的待处理文本数据进行分类,得到多个类别的待处理文本数据,包括:

3.根据权利要求2所述的特征提取的数据去重方法,其特征在于,所述待处理文本数据的特征向量的确定公式为:

4.根据权利要求1所述的特征提取的数据去重方法,其特征在于,所述基于词频-逆文本频率tf-idf方法,确定所述待处理文本数据集合中每个词语的tf-idf权重,包括:

5.根据权利要求1所述的特征提取的数据去重方法,其特征在于,所述基于所述多个类别,将所述待处理文本数据集合的待处理文本数据分配至所述多个分布式服务器,包括...

【专利技术属性】
技术研发人员:崔丽杰
申请(专利权)人:苏州元脑智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1