当前位置: 首页 > 专利查询>东华大学专利>正文

基于动态钻井的大规模流数据采样评估方法技术

技术编号:39004080 阅读:27 留言:0更新日期:2023-10-07 10:35
本发明专利技术的一个技术方案是提供了一种基于动态钻井的大规模流数据采样方法。本发明专利技术的另一个技术方案是提供了一种基于动态钻井的大规模流数据评估方法,其特征在于,利用上述的大规模流数据采样方法从原始流数据集采样获得样本集,基于样本集对原始数据集的价值特征进行评估。基于矿产钻井勘探思想,本发明专利技术提出一种动态钻井采样方法,该方法以井为分析单元,动态改变井的大小和位置,准确定位离散数据的位置和范围。进一步提出了一种新的流数据价值评估模型,该模型从离散、集中和整体三个维度基于动态钻井采样方法获得的样本集对原始流数据集进行评估,对大数据价值评估有重要的研究意义。的研究意义。的研究意义。

【技术实现步骤摘要】
基于动态钻井的大规模流数据采样评估方法


[0001]本专利技术涉及一种基于动态钻井的大规模流数据采样方法,属于信息


技术介绍

[0002]在大数据时代,数据的价值化是大数据的核心需求之一。数据要素市场化已成为建设数字中国不可或缺的一部分,数据资产时代已然来临。当前,各利益相关方的动向亦正在为数据资产化的进程扫除障碍。
[0003]随着工业互联网的发展,大数据信息技术的快速进步,数据信息已经成为了各大厂商争相获取的商品,数据量也在快速动态的增长,例如网络安全、日常交易、社交媒体和交通运输等领域正在以流数据的形式源源不断的产生。其中采样是数据挖掘技术的不可或缺的方法,在欺诈检测、数据挖掘和交通运输等很多的实际应用中具有广泛的应用。使用采样技术从大量数据中抽取保留原始数据特征的样本集,能够对原始数据进行数据质量和价值的评估和预测,降低计算成本和存储资源等。
[0004]现阶段,针对流数据的采样方法主要分为三类。第一类是无偏采样:分层采样、随机采样、水库采样等。无偏采样具有随机性,采样得到的流数据会丢失一部分关键信息,最终导致本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于动态钻井的大规模流数据采样方法,其特征在于,用于对流数据S进行采用,流数据S表示为:S={(id
i
,time
i
,value
i
)|1≤i≤N and i∈N
+
,式中,id
i
为第i条流数据到达的顺序,time
i
为第i条流数据到达的时间,value
i
为第i条流数据值,所述大规模流数据采样方法包括以下步骤:步骤1、以井为分析单元,确定流数据中离散数据位置和范围,其中,第i个井记作W
i
,第i个井的大小记为WS
i
,原始流数据集中采样井的个数记作WN,则W
i
内数据表示为:W
i
={(id
j
,time
j
,value
j
)|1≤j≤WS
i and j∈N
+
}(1≤i≤WN)步骤2、计算获得井间隔,其中,第i个井间隔记作WI
i
,第i个井间隔大小记作WIS
i
,则第i个井间隔WI
i
表示为:WI
i
={(id
j
,time
j
,value
j
)|id
wi_max
+1≤id
j
≤id
wi+1_min

1}式中,id
wi_max
为第i个井内所有流数据的最大的id,id
wi+1_min
为第i+1个井内所有流数据的最小的id;步骤3、利用偏态系数SK确定井的离散程度,若井内流数据的分布是对称的,则偏态系数SK等于0;若偏态系数SK明显不等于0,则表明井内流数据的分布是非对称的,其中,偏态系数SK为正,则为右偏分布,偏态系数SK为负,则为左偏分布;若第i个井的井内流数据的分布是非对称的,且第i个井内偏态系数表示为SK
i
,则有:若SK
i
∈[

0.5,0.5],则第i个井的离散程度较小;若SK
i
∈(

∞,

1)or(1,+∞),则第i个井的离散程度较大,称为高度偏态分布;若SK
i
∈(

1,

0.5)or(0.5,1),则认为是中等偏态分布;步骤4、使用偏态系数动态调整采样率和井间隔,假设当前为第i个井,初始的采样率为p
init
,则调整后的采样率p表示为:调整后的第i个井间隔大小WIS
i
表示如下:式中,WIS
init
表示第i个井的初始井间隔大小;步骤5、通过皮尔逊相关系数和变异系数相结合的算法动态调整井的大小...

【专利技术属性】
技术研发人员:章昭辉章鹏王鹏伟
申请(专利权)人:东华大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1