钻井式数据采样方法及其在大数据价值风险评估中的应用技术

技术编号:30370434 阅读:14 留言:0更新日期:2021-10-16 17:48
本发明专利技术涉及一种钻井式数据采样方法。本发明专利技术的另一个技术方案是提供了一种上述的钻井式数据采样方法在大数据价值风险评估中的应用方法。为解决大数据价值安全评估问题,本发明专利技术首先提供了一种“钻井式”的流式大数据的适量高效采集方法。该方法对不断产生的流数据进行“钻井”操作,建立流数据大小相对确定机制,并动态调整井间距,再分别对井内数据进行分析采样,观察其是否含有足够信息。这样能够很好的避免在整个流数据集上进行操作,导致过度的存取计算问题。其次,本发明专利技术将“钻井式”的流式大数据的适量高效采集方法应用在有效的数据价值安全评估中,对被采集的数据集进行价值评估。估。估。

【技术实现步骤摘要】
钻井式数据采样方法及其在大数据价值风险评估中的应用


[0001]本专利技术涉及一种钻井式数据采样方法以及该数据采样方法在大数据价值风险评估中的应用。

技术介绍

[0002]大数据已经被认为是一种数据资产。作为数据资产的大数据价值主要体现在数据本身所含的价值以及开发利用大数据的代价。从数据价值风险安全角度看,其中一种重要的表现是,大数据被未授权采集的一定量的数据是否体现了整体数据集的价值大小。如果采集的数据能够基本反映整体数据的特性,则意味着数据存在数据价值泄露的不安全。然而,现有的大数据价值安全还缺乏有效评估方法。特别地,对于流式大数据,由于数据量大、变化快等特性,在实际应用场景下,整体的数据价值评估难以采用全量的传统法。因此,要实现大数据价值安全的评估,必须要解决大数据整体价值的首要问题:能高效准确地体现整体价值的适量大数据采样问题。

技术实现思路

[0003]本专利技术的目的是:高效准确地体现整体价值的适量大数据采样。
[0004]为了达到上述目的,本专利技术的技术方案是提供了一种钻井式数据采样方法,其特征在于,包括以下步骤:
[0005]步骤1、井内波峰波谷采样:
[0006]针对流数据大小的不确定性,以井的宽度限定井内数据量的大小,使得流数据的大小相对确定,将井的宽度记为W,从异常值携带信息量较多的角度出发,采集每个井的局部异常值,每个井的局部异常值为波峰波谷,具体包括以下步骤:
[0007]S101、计算均值贡献率MCR:
[0008]计算井内流数据值的均值,将井内每个流数据值对均值的影响定义为均值贡献率MCR,则井内第i个流数据值value
i
对均值贡献程度MCR
i
的计算公式为:
[0009][0010]S102、设置均值贡献率MCR的阈值上限θ
upper
和阈值下限θ
lower

[0011]S103:计算井内疑似波峰波谷:
[0012]当井内流数据值的均值贡献率MCR
i
≥θ
upper
,则将该流数据值标记为疑似波峰;当井内流数据值的均值贡献率MCR
i
≤θ
lower
,则将该流数据值标记为疑似波谷,将疑似波峰及疑似波谷的集合记为PT,则PT表示为:
[0013]{(i,MCR
i
)|MCR
i
≥θ
upper
or MCR
i
≤θ
1ower
,i∈[1,W]and MCR
i
∈MCR}
[0014]S104:计算井内真实波峰波谷:
[0015]遵循波峰波谷交替出现的原则,当集合PT中连续出现波峰或波谷,则比较连续波峰或波谷的大小,若连续出现波峰,则保留其中最大的流数据值作为真实波峰,若连续出现
波谷,则保留其中最小的流数据值作为真实波谷,进而得到真实的波峰波谷集合;
[0016]步骤2、井间距动态调整:
[0017]在相邻井之间设置钻井间距,设初始井的宽度W是初始钻井间距宽度WS
init
的m倍,即有:W=m
×
WS
init
;利用每个井内所携带的信息量的差异来动态调整井间距宽度,包括以下步骤:
[0018]采用标准差来描述每个井内流数据的波动程度,并根据每个井的标准差来动态调整井间距宽度:标准差越大,则波动越剧烈,数据分布越不稳定,缩小井间距宽度;标准差越小,则波动越平缓,数据分布越稳定,保持井间距宽度不变;
[0019]步骤3、流数据集访问率计算:
[0020]令流数据集的大小为N,井间距采样率为p;设初始井的宽度W是初始钻井间距宽度WS
init
的m倍,即有:W=m
×
WS
init
;设钻井间距宽度的取值为则步骤3包括以下步骤:
[0021]S301:计算流数据集访问率范围:
[0022]当流数据集第一个井间距的初始钻井间距宽度为WS
init
,其它井间距的初始钻井间距宽度全部为时,流数据集的访问率AR1为:
[0023][0024]当流数据集第一个井间距的初始钻井间距宽度为WS
init
,其它井间距的初始钻井间距宽度全部为时,流数据集的访问率AR2为:
[0025][0026]当流数据集第一个井间距的初始钻井间距宽度为WS
init
,其它井间距的初始钻井间距宽度全部为时,流数据集的访问率AR3为:
[0027][0028]当流数据集井间距的初始钻井间距宽度全部为WS
init
,流数据集的访问率AR4为:
[0029][0030]则有访问率取值上限为AR1,下限为AR4,则故故故得到流数据集的得到流数据集的则访问率受井的宽度W和钻井间距宽度的倍数关系m和井间距采样率p的影响。
[0031]优选地,步骤S102中,设定所述阈值上限θ
upper
和所述阈值下限θ
lower
两者之间的关
系如下式所示:
[0032]θ
upper

lower
=2,θ
lower
∈(0,1]andθ
upper
∈[1,2)
[0033]所述阈值上限θ
upper
和所述阈值下限θ
lower
的具体值根据要求指定。
[0034]优选地,所述步骤2包括以下步骤:
[0035]S201:计算井内数据标准差:
[0036]假设对不断产生的流数据钻井的数量为WN,则第i个井的井内数据集合表示为well
i
={(j,time
j
,value
j
)|1≤j≤W and 1≤i≤WN},time
j
表示第i个井内第j个流数据到达的时间,value
j
表示第i个井内第j个流数据值,则第i个井的井内数据标准差wstd
i
采用下式计算:
[0037][0038]S202:构建井内标准差序列四分位数:
[0039]定义由步骤S201计算得到的所有井内数据标准差组成的标准差集合为WSTD,标准差集合WSTD的长度为n

1,n

1<WN,则有:WSTD=(wstd1,wstd2,

,wstd
n
‑1),则由标准差集合WSTD的上限Q
max
、下限Q
min
、第一四分位数Q1、第二四分位数Q2、第三四分位数Q3将标准差集合WSTD划分为四个不同的区域,第一四分位数Q1为标准差集合WSTD中从小到大排列25%的位置数,第二四分位数Q2为标本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种钻井式数据采样方法,其特征在于,包括以下步骤:步骤1、井内波峰波谷采样:针对流数据大小的不确定性,以井的宽度限定井内数据量的大小,使得流数据的大小相对确定,将井的宽度记为W,从异常值携带信息量较多的角度出发,采集每个井的局部异常值,每个井的局部异常值为波峰波谷,具体包括以下步骤:S101、计算均值贡献率MCR:计算井内流数据值的均值,将井内每个流数据值对均值的影响定义为均值贡献率MCR,则井内第i个流数据值value
i
对均值贡献程度MCR
i
的计算公式为:S102、设置均值贡献率MCR的阈值上限θ
upper
和阈值下限θ
lower
:S103:计算井内疑似波峰波谷:当井内流数据值的均值贡献率MCR
i
≥θ
upper
,则将该流数据值标记为疑似波峰;当井内流数据值的均值贡献率MCR
i
≤θ
lower
,则将该流数据值标记为疑似波谷,将疑似波峰及疑似波谷的集合记为PT,则PT表示为:{(i,MCR
i
)|MCR
i
≥θ
upper
or MCR
i
≤θ
lower
,i∈[1,W]and MCR
i
∈MCR}S104:计算井内真实波峰波谷:遵循波峰波谷交替出现的原则,当集合PT中连续出现波峰或波谷,则比较连续波峰或波谷的大小,若连续出现波峰,则保留其中最大的流数据值作为真实波峰,若连续出现波谷,则保留其中最小的流数据值作为真实波谷,进而得到真实的波峰波谷集合;步骤2、井间距动态调整:在相邻井之间设置钻井间距,设初始井的宽度W是初始钻井间距宽度WS
init
的m倍,即有:W=m
×
WS
init
;利用每个井内所携带的信息量的差异来动态调整井间距宽度,包括以下步骤:采用标准差来描述每个井内流数据的波动程度,并根据每个井的标准差来动态调整井间距宽度:标准差越大,则波动越剧烈,数据分布越不稳定,缩小井间距宽度;标准差越小,则波动越平缓,数据分布越稳定,保持井间距宽度不变;步骤3、流数据集访问率计算:令流数据集的大小为N,井间距采样率为p;设初始井的宽度W是初始钻井间距宽度WS
init
的m倍,即有:W=m
×
WS
init
;设钻井间距宽度的取值为则步骤3包括以下步骤:S301:计算流数据集访问率范围:当流数据集第一个井间距的初始钻井间距宽度为WS
init
,其它井间距的初始钻井间距宽度全部为时,流数据集的访问率AR1为:当流数据集第一个井间距的初始钻井间距宽度为WS
init
,其它井间距的初始钻井间距宽
度全部为时,流数据集的访问率AR2为:当流数据集第一个井间距的初始钻井间距宽度为WS
init
,其它井间距的初始钻井间距宽度全部为时,流数据集的访问率AR3为:当流数据集井间距的初始钻井间距宽度全部为WS
init
,流数据集的访问率AR4为:则有访问率取值上限为AR1,下限为AR4,则故故故故得到流数据集的访问率取值范围为则访问率受井的宽度W和钻井间距宽度的倍数关系m和井间距采样率p的影响。2.如权利要求1所述的一种钻井式数据采样方法,其特征在于,步骤S102中,设定所述阈值上限θ
upper
和所述阈值下限θ
lower
两者之间的关系如下式所示:θ
upper

lowe...

【专利技术属性】
技术研发人员:章昭辉徐付娟刘科杨如萍
申请(专利权)人:上海抉真网络科技有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1