【技术实现步骤摘要】
基于动态钻井的大规模流数据采样评估方法
[0001]本专利技术涉及一种基于动态钻井的大规模流数据采样方法,属于信息
技术介绍
[0002]在大数据时代,数据的价值化是大数据的核心需求之一。数据要素市场化已成为建设数字中国不可或缺的一部分,数据资产时代已然来临。当前,各利益相关方的动向亦正在为数据资产化的进程扫除障碍。
[0003]随着工业互联网的发展,大数据信息技术的快速进步,数据信息已经成为了各大厂商争相获取的商品,数据量也在快速动态的增长,例如网络安全、日常交易、社交媒体和交通运输等领域正在以流数据的形式源源不断的产生。其中采样是数据挖掘技术的不可或缺的方法,在欺诈检测、数据挖掘和交通运输等很多的实际应用中具有广泛的应用。使用采样技术从大量数据中抽取保留原始数据特征的样本集,能够对原始数据进行数据质量和价值的评估和预测,降低计算成本和存储资源等。
[0004]现阶段,针对流数据的采样方法主要分为三类。第一类是无偏采样:分层采样、随机采样、水库采样等。无偏采样具有随机性,采样得到的流数据会丢失一部 ...
【技术保护点】
【技术特征摘要】
1.一种基于动态钻井的大规模流数据采样方法,其特征在于,用于对流数据S进行采用,流数据S表示为:S={(id
i
,time
i
,value
i
)|1≤i≤N and i∈N
+
,式中,id
i
为第i条流数据到达的顺序,time
i
为第i条流数据到达的时间,value
i
为第i条流数据值,所述大规模流数据采样方法包括以下步骤:步骤1、以井为分析单元,确定流数据中离散数据位置和范围,其中,第i个井记作W
i
,第i个井的大小记为WS
i
,原始流数据集中采样井的个数记作WN,则W
i
内数据表示为:W
i
={(id
j
,time
j
,value
j
)|1≤j≤WS
i and j∈N
+
}(1≤i≤WN)步骤2、计算获得井间隔,其中,第i个井间隔记作WI
i
,第i个井间隔大小记作WIS
i
,则第i个井间隔WI
i
表示为:WI
i
={(id
j
,time
j
,value
j
)|id
wi_max
+1≤id
j
≤id
wi+1_min
‑
1}式中,id
wi_max
为第i个井内所有流数据的最大的id,id
wi+1_min
为第i+1个井内所有流数据的最小的id;步骤3、利用偏态系数SK确定井的离散程度,若井内流数据的分布是对称的,则偏态系数SK等于0;若偏态系数SK明显不等于0,则表明井内流数据的分布是非对称的,其中,偏态系数SK为正,则为右偏分布,偏态系数SK为负,则为左偏分布;若第i个井的井内流数据的分布是非对称的,且第i个井内偏态系数表示为SK
i
,则有:若SK
i
∈[
‑
0.5,0.5],则第i个井的离散程度较小;若SK
i
∈(
‑
∞,
‑
1)or(1,+∞),则第i个井的离散程度较大,称为高度偏态分布;若SK
i
∈(
‑
1,
‑
0.5)or(0.5,1),则认为是中等偏态分布;步骤4、使用偏态系数动态调整采样率和井间隔,假设当前为第i个井,初始的采样率为p
init
,则调整后的采样率p表示为:调整后的第i个井间隔大小WIS
i
表示如下:式中,WIS
init
表示第i个井的初始井间隔大小;步骤5、通过皮尔逊相关系数和变异系数相结合的算法动态调整井的大小...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。