一种数据筛选方法及数据筛选装置制造方法及图纸

技术编号:22055676 阅读:44 留言:0更新日期:2019-09-07 15:23
本申请提供了一种数据筛选方法及数据筛选装置,基于获取到的待筛选数据集合中的离散数据绘制散点图;基于散点图中每个离散点的分布特点,确定连接多个离散点的拟合曲线和拟合曲线的拟合度;若拟合曲线的拟合度小于预设阈值,基于每个离散点到拟合曲线的距离,构建概率分布模型;基于概率分布模型的平均值和标准误差,以及获取到的显著性水平值,确定距离的置信度区间范围;确定全部离散点中与拟合曲线之间的距离值位于所述置信度区间范围之外的离散点对应的离散数据,将确定的该离散数据从待筛选数据集合中筛除,并确定筛除该离散数据之后的数据集合为目标数据集合。这样,可以以拟合曲线为基准,去除离群点,提高离群点去除的准确性和彻底性。

A Data Screening Method and Device

【技术实现步骤摘要】
一种数据筛选方法及数据筛选装置
本申请涉及大数据处理
,尤其是涉及一种数据筛选方法及数据筛选装置。
技术介绍
随着互联网技术的飞速发展,大数据技术已经渗透到很多行业的很多业务当中,通过收集大量与业务相关的业务数据,对大量的业务数据进行处理分析,进而分析业务数据所对应的行业。在收集的数据中常常会因为测量的偏差或是统计的偏差存在一些干扰数据,这些干扰数据会影响对数据的处理分析过程,从而影响对行业的分析判断。现阶段,去除大数据集合中的干扰数据的常用方法建立数据模型等,都是基于预测值或是预先设定的标准去除干扰数据,没有以待筛选数据为基准,由于数据的特性不一样,预设的标准不一定适合所有数据,导致干扰数据去除不彻底或者去除不准确,影响对数据的处理和分析。
技术实现思路
有鉴于此,本申请的目的在于提供一种数据筛选方法及数据筛选装置,可以基于待筛选数据集合确定拟合曲线,以所述拟合曲线为基准,去除离群点,提高离群点去除的准确性和彻底性。本申请实施例提供了一种数据筛选方法,所述数据筛选方法包括:获取待筛选数据集合,并基于所述待筛选数据集合中的离散数据绘制散点图,其中,所述散点图中每个离散点的第一变量值本文档来自技高网...

【技术保护点】
1.一种数据筛选方法,其特征在于,所述数据筛选方法包括:获取待筛选数据集合,并基于所述待筛选数据集合中的离散数据绘制散点图,其中,所述散点图中每个离散点的第一变量值沿所述散点图的横坐标轴分布,所述散点图中每个离散点的第二变量值沿所述散点图的纵坐标轴分布;基于所述散点图中每个离散点的分布特点,确定连接多个离散点的拟合曲线和所述拟合曲线的拟合度;若所述拟合曲线的拟合度小于预设阈值,基于每个离散点到所述拟合曲线的距离,构建概率分布模型,其中,所述概率分布模型表示所述每个离散点到所述拟合曲线的距离值的分布情况;基于所述概率分布模型的平均值和标准误差值,以及获取到的显著性水平值,确定全部离散点到所述拟合...

【技术特征摘要】
1.一种数据筛选方法,其特征在于,所述数据筛选方法包括:获取待筛选数据集合,并基于所述待筛选数据集合中的离散数据绘制散点图,其中,所述散点图中每个离散点的第一变量值沿所述散点图的横坐标轴分布,所述散点图中每个离散点的第二变量值沿所述散点图的纵坐标轴分布;基于所述散点图中每个离散点的分布特点,确定连接多个离散点的拟合曲线和所述拟合曲线的拟合度;若所述拟合曲线的拟合度小于预设阈值,基于每个离散点到所述拟合曲线的距离,构建概率分布模型,其中,所述概率分布模型表示所述每个离散点到所述拟合曲线的距离值的分布情况;基于所述概率分布模型的平均值和标准误差值,以及获取到的显著性水平值,确定全部离散点到所述拟合曲线的距离值的置信度区间范围,其中,所述显著性水平值为预先设置的离散点到所述拟合曲线的距离值未落在所述置信度区间范围内的概率值;确定全部离散点中与所述拟合曲线之间的距离值位于所述置信度区间范围之外的离散点对应的离散数据,将确定的该离散数据从所述待筛选数据集合中筛除,并确定筛除该离散数据之后的数据集合为目标数据集合。2.根据权利要求1所述的数据筛选方法,其特征在于,在所述确定全部离散点中与所述拟合曲线之间的距离值位于所述置信度区间范围之外的离散点对应的离散数据,将确定的该离散数据从所述待筛选数据集合中筛除,并确定筛除该离散数据之后的数据集合为目标数据集合之后,所述数据筛选方法还包括:确定所述目标数据集合为所述待筛选数据集合,并返回至所述获取待筛选数据集合,并基于所述待筛选数据集合中的离散数据绘制散点图的步骤,再次对所述目标数据集合中的离散数据进行筛选;直至所述待筛选数据集合对应的拟合曲线的拟合度大于所述预设阈值时,确定所述待筛选数据集合中的数据筛选完成,并最终得到数据筛选后的目标数据集合。3.根据权利要求1所述的数据筛选方法,其特征在于,通过以下方式确定所述拟合曲线的拟合度:其中,R2为所述拟合曲线的拟合度,为残差平方和,为总平方和。4.根据权利要求1所述的数据筛选方法,其特征在于,所述基于所述概率分布模型的平均值和标准误差值,以及获取到的显著性水平值,确定全部离散点到所述拟合曲线的距离值的置信度区间范围,其中,所述显著性水平值为预先设置的离散点到所述拟合曲线的距离值未落在所述置信度区间范围内的概率值,包括:基于所述显著性水平值,确定与所述显著性水平值对应的标准分数值;基于所述概率分布模型的平均值、标准误差值和标准分数值,确定每个离散点到所述拟合曲线的距离值的置信度区间范围的上限值和下限值。5.根据权利要求4所述的数据筛选方法,其特征在于,所述基于所述概率分布模型的平均值、标准误差值和标准分数值,确定每个离散点到所述拟合曲线的距离值的置信度区间范围的上限值和下限值,包括:通过以下方式,确定每个离散点到所述拟合曲线的距离值的置信度区间的上限值:A1=μ+Z*σ;其中,A1为所述距离值的置信度区间的上限值,μ为所述概率分布模型的标准误差,Z为标准分数值,σ为所述概率分布模型的平均值;通过以下方式,确定每个离散点到所述拟合曲线的距离值的置信度区间的下限值:A2=...

【专利技术属性】
技术研发人员:刘强
申请(专利权)人:秒针信息技术有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1