【技术实现步骤摘要】
一种大数据自适应采集方法
[0001]本专利技术涉及大数据治理与融合
,特别涉及一种大数据自适应采集方法
。
技术介绍
[0002]大数据治理是指以最大限度地发挥数据价值
、
最小化生产风险为目标的数据管理过程
。
数据治理的作用在于保证数据的正规化以及减少数据的冗余;数据治理的核心是计划
、
监测和实施
。
其中,数据治理的规划指的是对管理数据模型的标准化进行定义,用户能够创建满足业务要求的标准模型,并对模型的属性及规则进行配置,从而设计质检规则和数据清洗原则等
。
数据治理的监测指的是对数据信息展开一次预览,并对表的血缘关系和字段的血缘关系进行跟踪,从而对数据在数据治理过程中的整个生命周期进行全面的把握
。
数据治理的实施指的是在对数据清洗
、
数据集中
、
质量稽核的规则和标准进行配置之后,进行的详细的数据治理服务
。
[0003]大数据治理是一个需要持续实施的
、
繁琐的
、
需要研究者们不断探究的项目,大数据治理的框架如图1所示,其包括组织
、
标准
、
流程
、
技术和评价五个架构方面的工作任务
。
[0004]在信息技术飞速发展的背景下,大数据的涌现与应用越来越广泛,对大数据的管理与融合也提出了新的挑战
。
大数据治理旨在对大数据进行有效 ...
【技术保护点】
【技术特征摘要】
1.
一种大数据自适应采集方法,其特征在于:使用
Bisquare
算法来构造一元线性回归模型,并利用所述一元线性回归模型来感知数据的变化,并根据所述一元线性回归模型倾斜度动态调节采集的时间间隔,所述动态调节包括下述步骤:
S1、
通过最小二乘法将最近的有限个离散数据点
m2(x2,y2)
,
m1(x1,y1)
…
m
n
(x
n
,y
n
)
进行线性拟合,然后得到拟合模型的初始斜率和截距的估计值
a
i
与
b
i
::式中,为离散数据点的
y
轴坐标平均值,为离散数据点的
x
轴坐标平均值,
i
为离散数据点的序号,
n
为
y
的长度;
S2、
利用残差最小化的方法得到权重的更新值,残差最小化的计算式为:
f
’
i
=
a
i
x+b
i
ꢀꢀꢀꢀꢀ
(4)
;式中,
E
为数据点的权重的残差值,
y
i
为序号为
i
的离散数据点的
y
轴坐标值,
w
i
为序号为
i
的数据点的权重,
f
i
为序号为
i
的数据点的最佳拟合值,
f
’
i
为序号为
i
的数据点的导数值,
x
为离散数据点的
x
轴坐标值;
S3、
根据已经得到的
a0和
b0,然后利用残差最小化对式
(4)
中的
a
i
进行求导并使
E
等于零,可得:
S4、
将新获...
【专利技术属性】
技术研发人员:陈雯珊,王辉,杨璐璐,刘晗之,刘凌坤,林健,梁诗瑶,许燕萍,吴明魁,
申请(专利权)人:福建省星云大数据应用服务有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。