一种对数据进行采样的方法和装置制造方法及图纸

技术编号：20655079 阅读：37 留言：0更新日期：2019-03-23 06:47

本申请公开了一种对数据进行采样的方法，包括：对所有用户的初始数据进行抽样处理，其中，每个用户对应一个数据向量；对于各个抽样用户及其对应的数据向量，计算每个抽样用户与其他所有抽样用户的向量间的相似性，得到每个抽样用户对应的距离矩阵；根据所有抽样用户对应的距离矩阵，对抽样用户对应的数据向量进行数据聚类；根据聚类结果，选择最重要的一个或多个特征；将所有用户的初始数据按照选择出的所有特征分成k类，并在每一类中进行抽样处理，并保证不同类中的抽样数差值最小。应用本申请，能够实现均匀采样，提高数据处理的准确性。

全部详细技术资料下载

【技术实现步骤摘要】
一种对数据进行采样的方法和装置
本申请涉及采样技术，特别涉及一种对数据进行采样的方法和装置。
技术介绍
随着大数据时代的到来，很多工作都需要以大量数据的分析为基础进行。通常，对于大数据量进行分析前，需要对数据进行适当的采用，以缩小数据量，并保持数据特性。而在我们的学习和日常生活中，我们所遇到的大多数数据都存在数据不平衡的问题。例如，在信息安全监控、风险管理、文本分类、机器故障等方面，都有某些类存在较多样本，而某些类只存在较少或很少的样本的情况出现。数据集中不同类别的数据的数目相差很大，使得数据不均匀分布，这种数据不平衡可能会导致对数据后续的处理产生一定的影响，如在分类过程中，不平衡的训练数据会导致分类器的性能下降，使得分类结果不准确。例如，随着智能电网的发展，电力数据量迅速增长。为了更快捷、有效的分析海量的电力数据，我们需要对电力数据进行采样分析。蓄水池抽样算法可以在数据量过大、数据长度未知的情况下对数据进行随机抽样，是目前电力系统中应用较普遍的对电力数据进行采样的方法。然而传统的诸如蓄水池算法之类的抽样算法无法均匀采样，因而会影响数据处理的准确性。那么，如何改进...

【技术保护点】
1.一种对数据进行采样的方法，其特征在于，包括：a、对所有用户的初始数据进行抽样处理，其中，每个用户对应一个数据向量；b、对于各个抽样用户及其对应的数据向量，计算每个抽样用户与其他所有抽样用户的向量间的相似性，得到每个抽样用户对应的距离矩阵；根据所有抽样用户对应的距离矩阵，对抽样用户对应的数据向量进行数据聚类；根据聚类结果，选择最重要的一个或多个特征；c、将所有用户的初始数据按照选择出的所有特征分成k类，并在每一类中进行抽样处理，并保证不同类中的抽样数差值最小。

【技术特征摘要】
1.一种对数据进行采样的方法，其特征在于，包括：a、对所有用户的初始数据进行抽样处理，其中，每个用户对应一个数据向量；b、对于各个抽样用户及其对应的数据向量，计算每个抽样用户与其他所有抽样用户的向量间的相似性，得到每个抽样用户对应的距离矩阵；根据所有抽样用户对应的距离矩阵，对抽样用户对应的数据向量进行数据聚类；根据聚类结果，选择最重要的一个或多个特征；c、将所有用户的初始数据按照选择出的所有特征分成k类，并在每一类中进行抽样处理，并保证不同类中的抽样数差值最小。2.根据权利要求1所述的方法，其特征在于，所述对抽样用户对应的数据向量进行数据聚类包括：对抽样用户对于的数据向量进行聚类，计算轮廓系数，并取最大的轮廓系数作为聚类总数k，根据所述k进行聚类，得到聚类结果。3.根据权利要求1所述的方法，其特征在于，所述根据聚类结果选择最重要的一个或多个特征包括：针对聚类结果中每一类数据向量，计算每个备选特征对应的特征值；根据各特征值计算各个备选特征的重要性，将最重要的一个或多个备选特征作为选择出的特征。4.根据权利要求3所述的方法，其特征在于，所述备选特征为均值、标准差、方根幅值、峰度、偏度和/或峰值。5.根据权利要求1所述的方法，其特征在于，所述步骤c包括：c1、将所有用户中的第一个用户作为当前用户，初始化k个数据集，每个数据集的大小为n/k，每个数据集对应于所述数据聚类的一个类别；c2、按照选择出的所有特征，确定当前用户的初始数据所属的类别x；c3、判断所述类别x对应的数据集c是否放满，若是，则执行步骤c4，否则将当前用户对应的数据向量加入数据集c，再执行步骤c5；c4、以(n/k)/m的概率替换掉数据集c中的一个数据向量；c5、判断当前用户是否为最后一个用户，若是，则...

【专利技术属性】
技术研发人员：林荣恒，苏运，毕倩，邹华，叶泽州，
申请(专利权)人：北京邮电大学，国网上海市电力公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人