【技术实现步骤摘要】
一种对数据进行采样的方法和装置
本申请涉及采样技术,特别涉及一种对数据进行采样的方法和装置。
技术介绍
随着大数据时代的到来,很多工作都需要以大量数据的分析为基础进行。通常,对于大数据量进行分析前,需要对数据进行适当的采用,以缩小数据量,并保持数据特性。而在我们的学习和日常生活中,我们所遇到的大多数数据都存在数据不平衡的问题。例如,在信息安全监控、风险管理、文本分类、机器故障等方面,都有某些类存在较多样本,而某些类只存在较少或很少的样本的情况出现。数据集中不同类别的数据的数目相差很大,使得数据不均匀分布,这种数据不平衡可能会导致对数据后续的处理产生一定的影响,如在分类过程中,不平衡的训练数据会导致分类器的性能下降,使得分类结果不准确。例如,随着智能电网的发展,电力数据量迅速增长。为了更快捷、有效的分析海量的电力数据,我们需要对电力数据进行采样分析。蓄水池抽样算法可以在数据量过大、数据长度未知的情况下对数据进行随机抽样,是目前电力系统中应用较普遍的对电力数据进行采样的方法。然而传统的诸如蓄水池算法之类的抽样算法无法均匀采样,因而会影响数据处理的准确性。那么,如何改进 ...
【技术保护点】
1.一种对数据进行采样的方法,其特征在于,包括:a、对所有用户的初始数据进行抽样处理,其中,每个用户对应一个数据向量;b、对于各个抽样用户及其对应的数据向量,计算每个抽样用户与其他所有抽样用户的向量间的相似性,得到每个抽样用户对应的距离矩阵;根据所有抽样用户对应的距离矩阵,对抽样用户对应的数据向量进行数据聚类;根据聚类结果,选择最重要的一个或多个特征;c、将所有用户的初始数据按照选择出的所有特征分成k类,并在每一类中进行抽样处理,并保证不同类中的抽样数差值最小。
【技术特征摘要】
1.一种对数据进行采样的方法,其特征在于,包括:a、对所有用户的初始数据进行抽样处理,其中,每个用户对应一个数据向量;b、对于各个抽样用户及其对应的数据向量,计算每个抽样用户与其他所有抽样用户的向量间的相似性,得到每个抽样用户对应的距离矩阵;根据所有抽样用户对应的距离矩阵,对抽样用户对应的数据向量进行数据聚类;根据聚类结果,选择最重要的一个或多个特征;c、将所有用户的初始数据按照选择出的所有特征分成k类,并在每一类中进行抽样处理,并保证不同类中的抽样数差值最小。2.根据权利要求1所述的方法,其特征在于,所述对抽样用户对应的数据向量进行数据聚类包括:对抽样用户对于的数据向量进行聚类,计算轮廓系数,并取最大的轮廓系数作为聚类总数k,根据所述k进行聚类,得到聚类结果。3.根据权利要求1所述的方法,其特征在于,所述根据聚类结果选择最重要的一个或多个特征包括:针对聚类结果中每一类数据向量,计算每个备选特征对应的特征值;根据各特征值计算各个备选特征的重要性,将最重要的一个或多个备选特征作为选择出的特征。4.根据权利要求3所述的方法,其特征在于,所述备选特征为均值、标准差、方根幅值、峰度、偏度和/或峰值。5.根据权利要求1所述的方法,其特征在于,所述步骤c包括:c1、将所有用户中的第一个用户作为当前用户,初始化k个数据集,每个数据集的大小为n/k,每个数据集对应于所述数据聚类的一个类别;c2、按照选择出的所有特征,确定当前用户的初始数据所属的类别x;c3、判断所述类别x对应的数据集c是否放满,若是,则执行步骤c4,否则将当前用户对应的数据向量加入数据集c,再执行步骤c5;c4、以(n/k)/m的概率替换掉数据集c中的一个数据向量;c5、判断当前用户是否为最后一个用户,若是,则...
【专利技术属性】
技术研发人员:林荣恒,苏运,毕倩,邹华,叶泽州,
申请(专利权)人:北京邮电大学,国网上海市电力公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。