去重信息获取方法、装置和电子设备制造方法及图纸

技术编号:25708429 阅读:40 留言:0更新日期:2020-09-23 02:55
本申请公开了一种去重信息获取方法、装置和电子设备,涉及计算机领域中的大数据技术,可用于云平台或云服务。具体实现方案为:一种去重信息获取方法,包括:对初始数据集进行采样,得到采样数据集,所述初始数据集包括属于同一属性的N个特征值,所述采样数据集包括所述N个特征值中的n个特征值,所述n为小于所述N的整数;对所述n个特征值进行去重操作,以得到去重数据集,统计所述去重数据集中的每个特征值在所述n个特征值中出现的次数;基于所述去重数据集和所述次数,确定所述初始数据集的去重信息。本申请提供的一种去重信息获取方法、装置和电子设备,可以解决现有技术中对属性特征值的去重效果差的问题。

【技术实现步骤摘要】
去重信息获取方法、装置和电子设备
本申请涉及计算机领域中的大数据技术,具体涉及一种去重信息获取方法、装置和电子设备。
技术介绍
数据去重是一种用于消除冗余数据的数据压缩技术,现有技术中,存在一些算法用于对数据进行去重。然而,当待去重的初始数据集中的数据量相当大时,如初始数据集中包括上千万条数据时,若采用现有算法对初始数据集直接进行去重,将导致去重过程耗时相当长的问题。基于此,现有技术中,当初始数据集中的数据量相当大时,通常采用对初始数据集进行采样的方法对初始数据集进行去重统计,即通过将采样数据的去重数除以采样率得到的值作为初始数据集的去重结果。
技术实现思路
本申请提供一种去重信息获取方法、装置和电子设备,以解决现有技术中对属性特征值的去重效果差的问题。第一方面,本申请提供一种去重信息获取方法,包括:对初始数据集进行采样,得到采样数据集,所述初始数据集包括属于同一属性的N个特征值,所述采样数据集包括所述N个特征值中的n个特征值,所述n为小于所述N的整数;对所述n个特征值进行去重操作,以得到去重数据集,统计所述去重数据本文档来自技高网...

【技术保护点】
1.一种去重信息获取方法,包括:/n对初始数据集进行采样,得到采样数据集,所述初始数据集包括属于同一属性的N个特征值,所述采样数据集包括所述N个特征值中的n个特征值,所述n为小于所述N的整数;/n对所述n个特征值进行去重操作,以得到去重数据集,统计所述去重数据集中的每个特征值在所述n个特征值中出现的次数;/n基于所述去重数据集和所述次数,确定所述初始数据集的去重信息。/n

【技术特征摘要】
1.一种去重信息获取方法,包括:
对初始数据集进行采样,得到采样数据集,所述初始数据集包括属于同一属性的N个特征值,所述采样数据集包括所述N个特征值中的n个特征值,所述n为小于所述N的整数;
对所述n个特征值进行去重操作,以得到去重数据集,统计所述去重数据集中的每个特征值在所述n个特征值中出现的次数;
基于所述去重数据集和所述次数,确定所述初始数据集的去重信息。


2.根据权利要求1所述的方法,其中,所述基于所述去重数据集和所述次数,确定所述初始数据集的去重信息,包括:
在所述去重数据集包括的特征值数大于或者等于第一预设值的情况下,确定第一目标数值,其中,第一目标数值为所述去重数据集中在所述n个特征值中出现的次数为1的特征值的个数;
基于所述第一目标数值,确定所述初始数据集的去重信息。


3.根据权利要求2所述的方法,其中,所述基于所述第一目标数值,确定所述初始数据集的去重信息,包括:
通过如下公式计算所述初始数据集的去重信息:
D=d+(N/n-1)s;
其中,所述D表示所述去重信息,所述d表示所述去重数据集包括的特征值数,s表示所述第一目标数值。


4.根据权利要求1所述的方法,其中,基于所述去重数据集和所述次数,确定所述初始数据集的去重信息,包括:
在所述去重数据集包括的特征值数小于第二预设值的情况下,将所述去重数据集包括的特征值数确定为所述去重信息。


5.根据权利要求1所述的方法,其中,所述对初始数据集进行采样,得到采样数据集之前,所述方法还包括:
获取预设范围内的若干个事件,其中,每个事件包括至少一个属性的特征值;
获取每个事件中的特征值,得到特征集;
按照属性类型对所述特征集中的特征值进行分类,得到至少一个所述初始数据集。


6.一种去重信息获取装置,包括:
采样模块,用于对初始数据集进行采样,得到采样数据集,所述初始数据集包括属于同一属性的N个特征值,所述采样数据集包括所述N个特征值中的n个特征值,所述n为小于所...

【专利技术属性】
技术研发人员:尹畅文黄斐乔叶峻
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1