【技术实现步骤摘要】
本专利技术涉及数据采样,特别是一种基于影响函数的稳健子采样方法。
技术介绍
1、近年来,数据生成与获取技术的快速发展引发了数据集规模与数量的指数级增长。相较于传统数据集,大规模数据在关键信息提取和潜在模式发现方面展现出巨大潜力,但其海量特性及普遍存在的数据污染问题对传统分析方法构成了双重挑战。在此背景下,子采样(subsampling)作为一种高效的计算加速方法受到广泛关注。
2、在经典回归分析框架下,传统最小二乘法的计算复杂度为o(nd2+d3),当数据维度d固定而样本量n→∞时,计算代价非常高。为了解决这一问题,研究者希望通过选择一个数据子集来近似全体数据,从而加速计算,提出基于随机矩阵构造的近似估计方法。这类方法主要分为三类:(1)基于杠杆分数(lev)的子采样方法(drineas et al.,2006;mahoney,2011);(2)随机投影方法,如子采样随机hadamard变换(srht)(drineas,2011)和clarkson-woodruff草图(clarkson&woodruff,2013)
...【技术保护点】
1.一种基于影响函数的稳健子采样方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于影响函数的稳健子采样方法,其特征在于,所述步骤1具体如下:
3.根据权利要求2所述的基于影响函数的稳健子采样方法,其特征在于,所述步骤2具体如下:
4.根据权利要求3所述的基于影响函数的稳健子采样方法,其特征在于,在步骤①中,所述子采样子程序如下:
5.根据权利要求4所述的基于影响函数的稳健子采样方法,其特征在于,所述步骤3具体执行逻辑步骤如下:
6.根据权利要求5所述的基于影响函数的稳健子采样方法,其特征在于,在步
...【技术特征摘要】
1.一种基于影响函数的稳健子采样方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于影响函数的稳健子采样方法,其特征在于,所述步骤1具体如下:
3.根据权利要求2所述的基于影响函数的稳健子采样方法,其特征在于,所述步骤2具体如下:
4.根据权利要求3所述的...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。