一种大数据自适应采集方法技术

技术编号:39788051 阅读:6 留言:0更新日期:2023-12-22 02:27
本发明专利技术提供一种方法大数据自适应采集方法,使用

【技术实现步骤摘要】
一种大数据自适应采集方法


[0001]本专利技术涉及大数据治理与融合
,特别涉及一种大数据自适应采集方法


技术介绍

[0002]大数据治理是指以最大限度地发挥数据价值

最小化生产风险为目标的数据管理过程

数据治理的作用在于保证数据的正规化以及减少数据的冗余;数据治理的核心是计划

监测和实施

其中,数据治理的规划指的是对管理数据模型的标准化进行定义,用户能够创建满足业务要求的标准模型,并对模型的属性及规则进行配置,从而设计质检规则和数据清洗原则等

数据治理的监测指的是对数据信息展开一次预览,并对表的血缘关系和字段的血缘关系进行跟踪,从而对数据在数据治理过程中的整个生命周期进行全面的把握

数据治理的实施指的是在对数据清洗

数据集中

质量稽核的规则和标准进行配置之后,进行的详细的数据治理服务

[0003]大数据治理是一个需要持续实施的

繁琐的

需要研究者们不断探究的项目,大数据治理的框架如图1所示,其包括组织

标准

流程

技术和评价五个架构方面的工作任务

[0004]在信息技术飞速发展的背景下,大数据的涌现与应用越来越广泛,对大数据的管理与融合也提出了新的挑战

大数据治理旨在对大数据进行有效的管理

整合与分析,确保数据的高质量

高一致性与高安全性

大数据融合是指将多源

多形式

多领域的多维数据进行集成与关联,从而得到更加全面

准确

有价值的信息

[0005]针对大数据治理和融合问题,国内外学者已开展了大量研究

在大数据治理领域,已有部分研究侧重于数据质量评价与清洗,例如缺失值处理,噪音数据过滤等

此外,还有学者对数据加密

访问控制

隐私脱敏等数据安全与隐私保护方法进行研究

在大数据融合领域,针对异构

不一致等问题,研究人员提出了相应的数据匹配与融合算法

另外,研究人员还提出了从多源数据中挖掘出隐含的关系和模式的相关算法

[0006]然而,目前虽然有一些关于大数据治理和融合的研究,但还存在一些问题,如缺乏标准规范,缺少实践验证和应用实例等

为此,研究拟从数据收集和数据安全两个角度出发,针对已有算法在标准统一

数据适应性强

数据处理规模大

实用化等方面存在的局限性,提出一套适用于大数据治理的自适应算法


技术实现思路

[0007]本专利技术要解决的技术问题,在于提供一种大数据自适应采集方法,在数据采集方面,能够根据数据特征和变化自动调整采集的时间间隔,具有较低的失真度,能够提高数据采集的精度

[0008]本专利技术提供了一种大数据自适应采集方法,其特征在于:使用
Bisquare
算法来构造一元线性回归模型,并利用所述一元线性回归模型来感知数据的变化,并根据所述一元线性回归模型倾斜度动态调节采集的时间间隔,所述动态调节包括下述步骤:
[0009]S1、
通过最小二乘法将最近的有限个离散数据点
m2(x2,y2)

m1(x1,y1)

m
n
(x
n
,y
n
)
进行线性拟合,然后得到拟合模型的初始斜率和截距的估计值
a
i

b
i

[0010][0011][0012]式中,为离散数据点的
y
轴坐标平均值,为离散数据点的
x
轴坐标平均值,
i
为离散数据点的序号,
n

y
的长度;
[0013]S2、
利用残差最小化的方法得到权重的更新值,残差最小化的计算式为:
[0014][0015]f'
i

a
i
x+b
i
ꢀꢀꢀꢀꢀꢀ
(4)

[0016]式中,
E
为数据点的权重的残差值,
y
i
为不同离散数据点的
y
轴坐标值,
w
i
为对应数据点的权重,
f
i
为对应数据点的最佳拟合值,
f'
i
为对应数据点的导数值,
x
为离散数据点的
x
轴坐标值;
[0017]S3、
根据已经得到的
a0和
b0,然后利用残差最小化对式
(4)
中的
a
i
进行求导并使
E
等于零,可得:
[0018][0019]S4、
将新获得的权重
w
i
做加权最小二乘法,得到第
i+2
个离散数据点的斜率
a
i+2
与截距
b
i+2

[0020][0021][0022]S5、
通过反复所述步骤
S4
实现迭代,直到迭代前后两次拟合多项式的斜率和截距

之间的相对差小于容差值时结束,此时拟合模型达到最佳状态,在此状态下,输出最佳拟合斜率;
[0023]S6、
根据得到的最佳拟合斜率所处的范围,确定下次采集的时间间隔

[0024]进一步的,所述
S6
具体是:如果斜率绝对值
|ai+2|
越小,则选择越大的采集时间间隔;相反,如果斜率绝对值
|ai+2|
越大,则选择越小的采集时间间隔

[0025]进一步的,在确定下次采集的时间间隔后,所述大数据自适应采集方法在下一次数据采集时,将最优拟合模型的上下界与标准数据源差分,将差分超过0的点作为异常数据点进行排除

[0026]进一步的,在数据存储时,还通过大数据安全模型进行安全保护,所述大数据安全模型采用的数据保密机制包括用户的离线培训

模型的确认与存储以及模型的聚集;所述用户的离线培训是利用差分隐私技术来对本地数据进行深度学习,实时更新密码权值和局域错误,并将其上传至星际文件系统
IPFS
节点,并将其哈希值压缩成协本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种大数据自适应采集方法,其特征在于:使用
Bisquare
算法来构造一元线性回归模型,并利用所述一元线性回归模型来感知数据的变化,并根据所述一元线性回归模型倾斜度动态调节采集的时间间隔,所述动态调节包括下述步骤:
S1、
通过最小二乘法将最近的有限个离散数据点
m2(x2,y2)

m1(x1,y1)

m
n
(x
n
,y
n
)
进行线性拟合,然后得到拟合模型的初始斜率和截距的估计值
a
i

b
i
::式中,为离散数据点的
y
轴坐标平均值,为离散数据点的
x
轴坐标平均值,
i
为离散数据点的序号,
n

y
的长度;
S2、
利用残差最小化的方法得到权重的更新值,残差最小化的计算式为:
f

i

a
i
x+b
i
ꢀꢀꢀꢀꢀ
(4)
;式中,
E
为数据点的权重的残差值,
y
i
为序号为
i
的离散数据点的
y
轴坐标值,
w
i
为序号为
i
的数据点的权重,
f
i
为序号为
i
的数据点的最佳拟合值,
f

i
为序号为
i
的数据点的导数值,
x
为离散数据点的
x
轴坐标值;
S3、
根据已经得到的
a0和
b0,然后利用残差最小化对式
(4)
中的
a
i
进行求导并使
E
等于零,可得:
S4、
将新获...

【专利技术属性】
技术研发人员:陈雯珊王辉杨璐璐刘晗之刘凌坤林健梁诗瑶许燕萍吴明魁
申请(专利权)人:福建省星云大数据应用服务有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1