【技术实现步骤摘要】
本专利技术涉及计算机,尤其涉及一种特征提取的数据去重方法、装置、电子设备及存储介质。
技术介绍
1、现有的数据去重方法主要基于比较和匹配的原理,通过对数据进行逐个比较来检测重复项。
2、现有的基于比较和匹配实现的数据去重方法,在处理大规模数据时面临着计算复杂度高和效率低的挑战。另外,对于文本数据而言,简单的比较方法可能无法准确地判断语义上相似但不完全相同的文本,导致数据去重效率较低。
技术实现思路
1、本专利技术提供一种特征提取的数据去重方法、装置、电子设备及存储介质,用以提升数据去重的效率。
2、本专利技术提供一种特征提取的数据去重方法,包括如下步骤:
3、基于接收的多个分布式服务器发送的待处理文本数据以及多个数据源发送的待处理文本数据,构建待处理文本数据集合;
4、基于词频-逆文本频率tf-idf方法,确定所述待处理文本数据集合中每个词语的tf-idf权重,并基于所述tf-idf权重,确定每个待处理文本数据的特征向量;
5、基
...【技术保护点】
1.一种特征提取的数据去重方法,其特征在于,所述方法包括:
2.根据权利要求1所述的特征提取的数据去重方法,其特征在于,所述基于所述每个待处理文本数据的特征向量,对所述待处理文本数据集合中的待处理文本数据进行分类,得到多个类别的待处理文本数据,包括:
3.根据权利要求2所述的特征提取的数据去重方法,其特征在于,所述待处理文本数据的特征向量的确定公式为:
4.根据权利要求1所述的特征提取的数据去重方法,其特征在于,所述基于词频-逆文本频率TF-IDF方法,确定所述待处理文本数据集合中每个词语的TF-IDF权重,包括:
5.
...【技术特征摘要】
1.一种特征提取的数据去重方法,其特征在于,所述方法包括:
2.根据权利要求1所述的特征提取的数据去重方法,其特征在于,所述基于所述每个待处理文本数据的特征向量,对所述待处理文本数据集合中的待处理文本数据进行分类,得到多个类别的待处理文本数据,包括:
3.根据权利要求2所述的特征提取的数据去重方法,其特征在于,所述待处理文本数据的特征向量的确定公式为:
4.根据权利要求1所述的特征提取的数据去重方法,其特征在于,所述基于词频-逆文本频率tf-idf方法,确定所述待处理文本数据集合中每个词语的tf-idf权重,包括:
5.根据权利要求1所述的特征提取的数据去重方法,其特征在于,所述基于所述多个类别,将所述待处理文本数据集合的待处理文本数据分配至所述多个分布式服务器,包括...
【专利技术属性】
技术研发人员:崔丽杰,
申请(专利权)人:苏州元脑智能科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。