【技术实现步骤摘要】
钻井式数据采样方法及其在大数据价值风险评估中的应用
[0001]本专利技术涉及一种钻井式数据采样方法以及该数据采样方法在大数据价值风险评估中的应用。
技术介绍
[0002]大数据已经被认为是一种数据资产。作为数据资产的大数据价值主要体现在数据本身所含的价值以及开发利用大数据的代价。从数据价值风险安全角度看,其中一种重要的表现是,大数据被未授权采集的一定量的数据是否体现了整体数据集的价值大小。如果采集的数据能够基本反映整体数据的特性,则意味着数据存在数据价值泄露的不安全。然而,现有的大数据价值安全还缺乏有效评估方法。特别地,对于流式大数据,由于数据量大、变化快等特性,在实际应用场景下,整体的数据价值评估难以采用全量的传统法。因此,要实现大数据价值安全的评估,必须要解决大数据整体价值的首要问题:能高效准确地体现整体价值的适量大数据采样问题。
技术实现思路
[0003]本专利技术的目的是:高效准确地体现整体价值的适量大数据采样。
[0004]为了达到上述目的,本专利技术的技术方案是提供了一种钻井式数据采样方法,其特征在于,包括以下步骤:
[0005]步骤1、井内波峰波谷采样:
[0006]针对流数据大小的不确定性,以井的宽度限定井内数据量的大小,使得流数据的大小相对确定,将井的宽度记为W,从异常值携带信息量较多的角度出发,采集每个井的局部异常值,每个井的局部异常值为波峰波谷,具体包括以下步骤:
[0007]S101、计算均值贡献率MCR:
[0008]计算井内流数据值 ...
【技术保护点】
【技术特征摘要】
1.一种钻井式数据采样方法,其特征在于,包括以下步骤:步骤1、井内波峰波谷采样:针对流数据大小的不确定性,以井的宽度限定井内数据量的大小,使得流数据的大小相对确定,将井的宽度记为W,从异常值携带信息量较多的角度出发,采集每个井的局部异常值,每个井的局部异常值为波峰波谷,具体包括以下步骤:S101、计算均值贡献率MCR:计算井内流数据值的均值,将井内每个流数据值对均值的影响定义为均值贡献率MCR,则井内第i个流数据值value
i
对均值贡献程度MCR
i
的计算公式为:S102、设置均值贡献率MCR的阈值上限θ
upper
和阈值下限θ
lower
:S103:计算井内疑似波峰波谷:当井内流数据值的均值贡献率MCR
i
≥θ
upper
,则将该流数据值标记为疑似波峰;当井内流数据值的均值贡献率MCR
i
≤θ
lower
,则将该流数据值标记为疑似波谷,将疑似波峰及疑似波谷的集合记为PT,则PT表示为:{(i,MCR
i
)|MCR
i
≥θ
upper
or MCR
i
≤θ
lower
,i∈[1,W]and MCR
i
∈MCR}S104:计算井内真实波峰波谷:遵循波峰波谷交替出现的原则,当集合PT中连续出现波峰或波谷,则比较连续波峰或波谷的大小,若连续出现波峰,则保留其中最大的流数据值作为真实波峰,若连续出现波谷,则保留其中最小的流数据值作为真实波谷,进而得到真实的波峰波谷集合;步骤2、井间距动态调整:在相邻井之间设置钻井间距,设初始井的宽度W是初始钻井间距宽度WS
init
的m倍,即有:W=m
×
WS
init
;利用每个井内所携带的信息量的差异来动态调整井间距宽度,包括以下步骤:采用标准差来描述每个井内流数据的波动程度,并根据每个井的标准差来动态调整井间距宽度:标准差越大,则波动越剧烈,数据分布越不稳定,缩小井间距宽度;标准差越小,则波动越平缓,数据分布越稳定,保持井间距宽度不变;步骤3、流数据集访问率计算:令流数据集的大小为N,井间距采样率为p;设初始井的宽度W是初始钻井间距宽度WS
init
的m倍,即有:W=m
×
WS
init
;设钻井间距宽度的取值为则步骤3包括以下步骤:S301:计算流数据集访问率范围:当流数据集第一个井间距的初始钻井间距宽度为WS
init
,其它井间距的初始钻井间距宽度全部为时,流数据集的访问率AR1为:当流数据集第一个井间距的初始钻井间距宽度为WS
init
,其它井间距的初始钻井间距宽
度全部为时,流数据集的访问率AR2为:当流数据集第一个井间距的初始钻井间距宽度为WS
init
,其它井间距的初始钻井间距宽度全部为时,流数据集的访问率AR3为:当流数据集井间距的初始钻井间距宽度全部为WS
init
,流数据集的访问率AR4为:则有访问率取值上限为AR1,下限为AR4,则故故故故得到流数据集的访问率取值范围为则访问率受井的宽度W和钻井间距宽度的倍数关系m和井间距采样率p的影响。2.如权利要求1所述的一种钻井式数据采样方法,其特征在于,步骤S102中,设定所述阈值上限θ
upper
和所述阈值下限θ
lower
两者之间的关系如下式所示:θ
upper
+θ
lowe...
【专利技术属性】
技术研发人员:章昭辉,徐付娟,刘科,杨如萍,
申请(专利权)人:上海抉真网络科技有限责任公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。