基于流式数据源的真实值发现方法及装置制造方法及图纸

技术编号:36951508 阅读:6 留言:0更新日期:2023-03-22 19:12
本发明专利技术涉及一种数据挖掘技术领域,是一种基于流式数据源的真实值发现方法及装置,包括获取观测值集合,其中观测值集合包括利用观测值集合的算术平均数和中位数,查找观测值集合中的不正确观测值,移除不正确观测值,对处理后的观测值集合进行分析,判断是否满足终止条件,响应于是,则输出处理后的观测值集合,针对处理后的观测值集合利用真实值估计方法进行真实值估计。本发明专利技术基于观测值集合的算术平均数和变化中位数有效检测并移除流式数据源中的不正确数据,没有使用固定的统计特征值,因此能准确剔除不正确数据,为真实估计提供良好的数据基础,避免了因流式数据源的统计特征值不断变化,造成不能准确对数据的真实性进行判断的问题。断的问题。断的问题。

【技术实现步骤摘要】
基于流式数据源的真实值发现方法及装置


[0001]本专利技术涉及一种数据挖掘
,是一种基于流式数据源的真实值发现方法及装置。

技术介绍

[0002]当前各个互联网企业往往利用接入的第三方数据完成相应的网络服务,但是,能提供高质量保证的数据源往往规模较小或是收费较高。因此,众多第三方数据源服务公司以其收集快速、成本低廉、数据规模大成为众多互联网企业的首选,特别是在量化金融、智能交通等领域,通过爬虫获取的数据流在量化投资、交通管理等任务中得到了普遍应用。但是,因为第三方数据源服务公司的技术能力与数据质量保证力度参差不齐,针对同一观测变量,各公司的数据源可能给出不一样的观测值。如何从多个不同公司给出的含有冲突的观测值的流式数据源中挖掘出真实数据,过滤出错误数据是一个亟待解决的问题。
[0003]目前用于大数据的真实数据挖掘算法,在收集一定量的数据源提供的数据后,根据统计特征值,对每个数据源的真实性进行判定,但由于流式数据源中的数据是每时每刻不断更新的,其统计特性也是不断变化的,因此使用现有用于大数据的真实数据挖掘算法易导致数据挖掘模式由“收集

判断”模式变为“更新

预测”模式,造成真实数据提取不准确。

技术实现思路

[0004]本专利技术提供了一种基于流式数据源的真实值发现方法及装置,克服了上述现有技术之不足,其能有效解决现有利用固定统计特征值对每个数据源的真实性进行判定的真实数据挖掘方法存在的由于流式数据源的统计特征值不断变化,故不能准确对数据源的真实性进行判断的问题。
[0005]本专利技术的技术方案之一是通过以下措施来实现的:一种基于流式数据源的真实值发现方法,包括:
[0006]S10,获取观测值集合,其中观测值集合包括某一流式数据源的若干数据;
[0007]S20,利用观测值集合的算术平均数和中位数,查找观测值集合中的不正确观测值;
[0008]S30,移除不正确观测值;
[0009]S40,对处理后的观测值集合进行分析,判断是否满足终止条件,响应于是,则输出处理后的观测值集合,响应于否,则重复步骤S20至S40;
[0010]S50,针对处理后的观测值集合利用真实值估计方法进行真实值估计。
[0011]下面是对上述专利技术技术方案的进一步优化或/和改进:
[0012]上述终止条件包括:当前观测值集合的观测值数量是否小于数量阈值。
[0013]上述利用观测值集合的算术平均数和中位数,查找观测值集合中的不正确观测值,包括:
[0014]S21,获取观测值集合的算术平均数和中位数;
[0015]S22,判断算术平均数和中位数的差值绝对值是否大于误差阈值;
[0016]S23,响应于是,则结合算术平均数在该中位数对应的两个观测值中查找不正确观测值,并进行标记;
[0017]S24,响应于否,则隐藏该中位数对应的两个观测值,并返回步骤S21,直至遍历所有观测值,处理后的观测值集合。
[0018]本专利技术的技术方案之二是通过以下措施来实现的:一种基于流式数据源的真实值发现装置,包括:
[0019]集合建立单元,获取观测值集合,其中观测值集合包括某一流式数据源的若干数据;
[0020]检测单元,利用观测值集合的算术平均数和中位数,查找观测值集合中的不正确观测值;
[0021]移除单元,移除不正确观测值,对处理后的观测值集合进行分析,响应于是,则输出处理后的观测值集合,响应于否,则继续检测不正确观测值;
[0022]输出单元,输出处理后的观测值集合;
[0023]估计单元,针对处理后的观测值集合利用真实值估计方法进行真实值估计。
[0024]下面是对上述专利技术技术方案的进一步优化或/和改进:
[0025]上述检测单元包括:
[0026]中间值获取单元,获取观测值集合的算术平均数和中位数;
[0027]判断模块,判断算术平均数和中位数的差值绝对值是否大于误差阈值;
[0028]第一处理模块,算术平均数和中位数的差值绝对值大于误差阈值,则结合算术平均数在该中位数对应的两个观测值中查找不正确观测值,并进行标记;
[0029]第二处理模块,算术平均数和中位数的差值绝对值不大于误差阈值,隐藏该中位数对应的两个观测值,并利用判断模块继续判断,直至遍历所有观测值,处理后的观测值集合。
[0030]本专利技术基于观测值集合的算术平均数和变化中位数有效检测并移除流式数据源中的不正确数据,没有使用固定的统计特征值,因此能准确剔除不正确数据,为真实估计提供良好的数据基础,避免了因流式数据源的统计特征值不断变化,造成不能准确对数据的真实性进行判断的问题,且本专利技术公开的方法简单,运算速度快,提高了真实值发现的效率。
附图说明
[0031]附图1为本专利技术的方法流程图。
[0032]附图2为本专利技术中不正确观测值查找的方法流程图。
[0033]附图3为本专利技术的装置结构示意图。
[0034]附图4为本专利技术中检测单元的结构示意图。
具体实施方式
[0035]本专利技术不受下述实施例的限制,可根据本专利技术的技术方案与实际情况来确定具体
的实施方式。
[0036]下面结合实施例及附图对本专利技术作进一步描述:
[0037]实施例1:如附图1所示,本专利技术实施例公开了一种基于流式数据源的真实值发现方法,包括:
[0038]步骤S10,获取观测值集合,其中观测值集合包括某一流式数据源的若干数据;
[0039]步骤S20,利用观测值集合的算术平均数和中位数,查找观测值集合中的不正确观测值;
[0040]步骤S30,移除不正确观测值;
[0041]步骤S40,对处理后的观测值集合进行分析,判断是否满足终止条件,响应于是,则输出处理后的观测值集合,响应于否,则重复步骤S20至S40;
[0042]步骤S50,针对处理后的观测值集合利用真实值估计方法进行真实值估计。
[0043]上述步骤S10中,观测值集合包括某一流式数据源的若干数据,某一流式数据源设定为e,则观测值集合
[0044]上述步骤S20中,如附图2所示,利用观测值集合的算术平均数和中位数,查找观测值集合中的不正确观测值,进一步包括:
[0045]步骤S21,获取观测值集合的算术平均数y和中位数m;
[0046]该步骤中,算术平均数y和中位数m均可以利用科学计算软件获取,y=mean(X
e
),m=median(X
e
),其中集合的中位数即若集合中数据的数量为偶数,则为中间两个数据的均值,若集合中数据的数量为奇数,则中间的数据为中位数。
[0047]步骤S22,判断算术平均数y和中位数m的差值绝对值是否大于误差阈值ε,即是否|y

m|>ε;其中误差阈值ε可根据对应的流式数据源类型确定。本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于流式数据源的真实值发现方法,其特征在于,包括:S10,获取观测值集合,其中观测值集合包括某一流式数据源的若干数据;S20,利用观测值集合的算术平均数和中位数,查找观测值集合中的不正确观测值;S30,移除不正确观测值;S40,对处理后的观测值集合进行分析,判断是否满足终止条件,响应于是,则输出处理后的观测值集合,响应于否,则重复步骤S20至S40;S50,针对处理后的观测值集合利用真实值估计方法进行真实值估计。2.根据权利要求1所述的基于流式数据源的真实值发现方法,其特征在于,所述终止条件包括:当前观测值集合的观测值数量是否小于数量阈值。3.根据权利要求1或2所述的基于流式数据源的真实值发现方法,其特征在于,所述利用观测值集合的算术平均数和中位数,查找观测值集合中的不正确观测值,包括:S21,获取观测值集合的算术平均数和中位数;S22,判断算术平均数和中位数的差值绝对值是否大于误差阈值;S23,响应于是,则结合算术平均数在该中位数对应的两个观测值中查找不正确观测值,并进行标记;S24,响应于否,则隐藏该中位数对应的两个观测值,并返回步骤S21,直至遍历所有观测值,处理后的观测值集合。4.一种应用权利要求1至3中任意一项所述方法的基于流式数据源的真实值发现装置,其特征在于,包括:集合建立单元,获取观测值集合,其中观测值集合包括某一流式数据源的若...

【专利技术属性】
技术研发人员:邹振婉李峰陈学鹏许超文杨慧婷王斌郭学让樊树铭
申请(专利权)人:湖南华顺信安科技有限公司国家电网有限公司
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1