一种大数据实例约简方法、装置、电子设备及存储介质制造方法及图纸

技术编号:35644992 阅读:11 留言:0更新日期:2022-11-19 16:37
本发明专利技术公开了一种大数据实例约简方法、装置、电子设备及存储介质,用于解决传统的大数据约简方法容易造成信息丢失,抽样效率低、样本代表性差的技术问题。本发明专利技术包括:对预设的初始大数据集进行逻辑分块,得到逻辑数据块;分别对每个所述逻辑数据块进行聚类,得到多个目标类簇;采用最优样本大小算法确定每个所述目标类簇的最优抽样规模;获取每个目标类簇的目标聚类中心和目标重心;以所述目标聚类中心和所述目标重心为基础,结合所述最优抽样规模生成所述初始大数据集的最优极小样本数据集;将所述最优极小样本数据集作为所述初始大数据集的约简结果。据集的约简结果。据集的约简结果。

【技术实现步骤摘要】
一种大数据实例约简方法、装置、电子设备及存储介质


[0001]本专利技术涉及大数据处理
,尤其涉及一种大数据实例约简方法、装置、电子设备及存储介质。

技术介绍

[0002]大数据难题很大程度上源于其数据量的大规模性以及其特征的高维性,与此同时,通常还需要利用它的大规模实例和高维特征来实现相应的需求。大数据的约简和降维预处理方法都是旨在尽可能保证原大数据的特点和分布特性的情况下降低其数据规模,现有的经典随机抽样算法尽管可以直接用于数据实例约简问题,然而其具有一定的局限性。由于大数据集中的数据通常不是均匀分布的,如果用传统的抽样方法进行实例约简很容易造成信息丢失、抽样效率低和样本代表性差等问题。

技术实现思路

[0003]本专利技术提供了一种大数据实例约简方法、装置、电子设备及存储介质,用于解决传统的大数据约简方法容易造成信息丢失,抽样效率低、样本代表性差的技术问题。
[0004]本专利技术提供了一种大数据实例约简方法,包括:
[0005]对预设的初始大数据集进行逻辑分块,得到逻辑数据块;
[0006]分别对每个所述逻辑数据块进行聚类,得到多个目标类簇;
[0007]采用最优样本大小算法确定每个所述目标类簇的最优抽样规模;
[0008]获取每个目标类簇的目标聚类中心和目标重心;
[0009]以所述目标聚类中心和所述目标重心为基础,结合所述最优抽样规模生成所述初始大数据集的最优极小样本数据集;
[0010]将所述最优极小样本数据集作为所述初始大数据集的约简结果。
[0011]可选地,每个所述逻辑数据块均具有多个数据实例;所述分别对每个所述逻辑数据块进行聚类,得到多个目标类簇的步骤,包括:
[0012]采用最大最小距离法选取所述逻辑数据块的若干个初始聚类中心;
[0013]以每个所述初始聚类中心为基础对所述逻辑数据块进行聚类,得到若干个初始类簇;
[0014]计算每个所述初始类簇的初始重心,并根据所述初始重心计算所述逻辑数据块的初始误差平方和;
[0015]以所述初始重心对应的数据实例作为新的聚类中心进行聚类,得到更新类簇;
[0016]计算每个所述更新类簇的更新重心,并根据所述更新重心计算所述逻辑数据块的更新误差平方和;
[0017]判断所述初始误差平方和与所述更新误差平方和的差值的绝对值是否小于预设阈值;
[0018]若是,将所述更新类簇作为所述逻辑数据块的目标类簇。
[0019]可选地,还包括:
[0020]若所述初始误差平方和与所述更新误差平方和的差值的绝对值不小于所述预设阈值,则将所述更新误差平方和作为所述初始误差平方和,将所述更新重心作为所述初始重心,并返回以所述初始重心对应的数据实例作为新的聚类中心进行聚类,得到更新类簇的步骤。
[0021]可选地,所述采用最大最小距离法选取所述逻辑数据块的若干个初始聚类中心的步骤,包括:
[0022]在所述逻辑数据块中任取一个数据实例作为第一聚类中心;
[0023]在所述逻辑数据块中找出与所述第一聚类中心距离最大的数据实例作为第二聚类中心;
[0024]将所述第一聚类中心和所述第二聚类中心添加进聚类中心集中;
[0025]计算所述逻辑数据块中除聚类中心集以外的数据实例与所述聚类中心集的最小距离值;
[0026]获取所有所述最小距离值中的最大值;
[0027]判断所述最大值是否满足预设检验条件;
[0028]若否,将所述聚类中心集中的聚类中心作为所述逻辑数据块的初始聚类中心。
[0029]可选地,还包括:
[0030]若所述最大值满足预设检验条件,则将所述最大值对应的数据实例作为第三聚类中心,将所述第三聚类中心添加进所述聚类中心集中,并返回所述计算所述逻辑数据块中除聚类中心集以外的数据实例与所述聚类中心集的最小距离值的步骤。
[0031]可选地,所述以所述目标聚类中心和所述目标重心为基础,结合所述最优抽样规模生成所述初始大数据集的最优极小样本数据集的步骤,包括:
[0032]根据每个目标类簇的最优抽样规模在所述目标类簇中随机抽取样本数据;
[0033]采用所述目标聚类中心和所述目标重心分别对应的数据实例,以及所述样本数据生成所述目标类簇的类簇最优极小样本数据集;
[0034]采用所述逻辑数据块的所有目标类簇分别对应的类簇最优极小样本数据集,生成所述逻辑数据块的块最优极小样本数据集;
[0035]采用所述初始大数据集的所有逻辑数据块分别对应的块最优极小样本数据集,生成所述初始大数据集的最优极小样本数据集。
[0036]本专利技术还提供了一种大数据实例约简装置,包括:
[0037]分块模块,用于对预设的初始大数据集进行逻辑分块,得到逻辑数据块;
[0038]聚类模块,用于分别对每个所述逻辑数据块进行聚类,得到多个目标类簇;
[0039]最优抽样规模确定模块,用于采用最优样本大小算法确定每个所述目标类簇的最优抽样规模;
[0040]目标聚类中心和目标重心获取模块,用于获取每个目标类簇的目标聚类中心和目标重心;
[0041]最优极小样本数据集生成模块,用于以所述目标聚类中心和所述目标重心为基础,结合所述最优抽样规模生成所述初始大数据集的最优极小样本数据集;
[0042]约简模块,用于将所述最优极小样本数据集作为所述初始大数据集的约简结果。
[0043]可选地,每个所述逻辑数据块均具有多个数据实例;所述聚类模块,包括:
[0044]初始聚类中心选取子模块,用于采用最大最小距离法选取所述逻辑数据块的若干个初始聚类中心;
[0045]初始类簇生成子模块,用于以每个所述初始聚类中心为基础对所述逻辑数据块进行聚类,得到若干个初始类簇;
[0046]初始误差平方和计算子模块,用于计算每个所述初始类簇的初始重心,并根据所述初始重心计算所述逻辑数据块的初始误差平方和;
[0047]更新类簇生成子模块,用于以所述初始重心对应的数据实例作为新的聚类中心进行聚类,得到更新类簇;
[0048]更新误差平方和计算子模块,用于计算每个所述更新类簇的更新重心,并根据所述更新重心计算所述逻辑数据块的更新误差平方和;
[0049]阈值判断子模块,用于判断所述初始误差平方和与所述更新误差平方和的差值的绝对值是否小于预设阈值;
[0050]目标类簇确定子模块,用于若是,将所述更新类簇作为所述逻辑数据块的目标类簇。
[0051]本专利技术还提供了一种电子设备,所述设备包括处理器以及存储器:
[0052]所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
[0053]所述处理器用于根据所述程序代码中的指令执行如上任一项所述的大数据实例约简方法。
[0054]本专利技术还提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储程序代码,所述程序代本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种大数据实例约简方法,其特征在于,包括:对预设的初始大数据集进行逻辑分块,得到逻辑数据块;分别对每个所述逻辑数据块进行聚类,得到多个目标类簇;采用最优样本大小算法确定每个所述目标类簇的最优抽样规模;获取每个目标类簇的目标聚类中心和目标重心;以所述目标聚类中心和所述目标重心为基础,结合所述最优抽样规模生成所述初始大数据集的最优极小样本数据集;将所述最优极小样本数据集作为所述初始大数据集的约简结果。2.根据权利要求1所述的方法,其特征在于,每个所述逻辑数据块均具有多个数据实例;所述分别对每个所述逻辑数据块进行聚类,得到多个目标类簇的步骤,包括:采用最大最小距离法选取所述逻辑数据块的若干个初始聚类中心;以每个所述初始聚类中心为基础对所述逻辑数据块进行聚类,得到若干个初始类簇;计算每个所述初始类簇的初始重心,并根据所述初始重心计算所述逻辑数据块的初始误差平方和;以所述初始重心对应的数据实例作为新的聚类中心进行聚类,得到更新类簇;计算每个所述更新类簇的更新重心,并根据所述更新重心计算所述逻辑数据块的更新误差平方和;判断所述初始误差平方和与所述更新误差平方和的差值的绝对值是否小于预设阈值;若是,将所述更新类簇作为所述逻辑数据块的目标类簇。3.根据权利要求2所述的方法,其特征在于,还包括:若所述初始误差平方和与所述更新误差平方和的差值的绝对值不小于所述预设阈值,则将所述更新误差平方和作为所述初始误差平方和,将所述更新重心作为所述初始重心,并返回以所述初始重心对应的数据实例作为新的聚类中心进行聚类,得到更新类簇的步骤。4.根据权利要求2所述的方法,其特征在于,所述采用最大最小距离法选取所述逻辑数据块的若干个初始聚类中心的步骤,包括:在所述逻辑数据块中任取一个数据实例作为第一聚类中心;在所述逻辑数据块中找出与所述第一聚类中心距离最大的数据实例作为第二聚类中心;将所述第一聚类中心和所述第二聚类中心添加进聚类中心集中;计算所述逻辑数据块中除聚类中心集以外的数据实例与所述聚类中心集的最小距离值;获取所有所述最小距离值中的最大值;判断所述最大值是否满足预设检验条件;若否,将所述聚类中心集中的聚类中心作为所述逻辑数据块的初始聚类中心。5.根据权利要求4所述的方法,其特征在于,还包括:若所述最大值满足预设检验条件,则将所述最大值对应的数据实例作为第三聚类中心,将所述第三聚类中心添加进所述聚类中心集中,并返回所述计算所述逻辑数据块中除聚类中心集以外的数据实例与所述聚类中心集的最小距离值的步骤。
6.根据权利要求1所述的方法,其特征在于,所述以所述目标聚类中心和所述目标重心为基础,结合所述最...

【专利技术属性】
技术研发人员:傅雨婷
申请(专利权)人:天翼数字生活科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1