一种基于聚类算法的钻井溢流数据异常值处理方法技术

技术编号:23432291 阅读:45 留言:0更新日期:2020-02-25 13:22
本发明专利技术涉及一种基于聚类算法的钻井溢流数据异常值处理方法,包括以下步骤:步骤一:选出原始石油钻井数据中的钻井溢流表征参数,剔除因数据监测设备和实际钻井影响的无效数据,得到初步处理的钻井溢流数据;步骤二:对初步处理过的钻井溢流数据利用基于密度聚类的DBSCSN算法进行粗略分类,寻找出不属于任何聚类簇的异常值和各个聚类簇的边界点;步骤三:对钻井溢流数据样本聚类之后结果利用基于欧式距离的异常值检测算法进一步挖掘出钻井溢流数据的异常值,最终取得质量良好的钻井溢流数据。本发明专利技术先利用DBSCAN聚类算法初步分类,寻找到初步的异常值,再利用异常值检测算法对聚类边界值进行二次分析,能够更加精确的筛选出钻井溢流数据的异常值来提高数据质量。

An outlier processing method of drilling overflow data based on clustering algorithm

【技术实现步骤摘要】
一种基于聚类算法的钻井溢流数据异常值处理方法
本专利技术涉及一种石油钻井领域数据挖掘过程中的数据处理方法,具体是关于一种基于聚类算法的钻井溢流数据异常值处理方,属于石油天然气钻井及大数据应用领域。
技术介绍
由于作业环境恶劣、事故频发,石油钻井工程被认为是一种危险且成本投入高的系统工程。溢流是石油钻井施工中发生频率高、危害最为严重的钻井事故之一,不仅增加了钻井难度,而且如果不采取必要的井控措施,还会导致井喷甚至是井喷失控,从而造成井眼报废乃至大量人员伤亡及环境污染。因此,如果能及时、准确进行溢流预警,提前进行处置措施,则能极大限度的降低风险,实现安全高效的钻井工程。由于溢流的发生受地层压力、井筒钻井液循环当量密度等多因素的影响,具有复杂性、随机性和非线性的特征,因此无法建立精确的溢流预警模型。然而在石油钻井过程中会产生大量钻井数据,因此可以采用数据挖掘技术,充分利用区域邻井资料进行数据分析,建立合适的算法模型实现快速、准确的钻井溢流智能预警。但由于钻井数据受到监测设备和复杂钻井环境的影响,会产生很大的数据误差和遗漏数据,钻井数据质量较差,难以建立准确的溢流预警模型,对溢流预警结果产生偏差。
技术实现思路
针对上述问题,本专利技术的目的是提供一种针对提高钻井数据质量的钻井溢流数据异常值处理方法。为实现上述目的,本专利技术采取以下技术方案:一种基于聚类算法的钻井溢流数据异常值处理方法,包括以下步骤:步骤一:选出原始石油钻井数据中的钻井溢流表征参数,剔除因数据监测设备和实际钻井影响的无效数据,得到初步处理的钻井溢流数据;步骤二:对初步处理过的钻井溢流数据利用基于密度聚类的DBSCSN算法进行粗略分类,寻找出不属于任何聚类簇的异常值和各个聚类簇的边界点;步骤三:对钻井溢流数据样本聚类之后结果利用基于欧式距离的异常值检测算法进一步挖掘出钻井溢流数据的异常值,最终取得质量良好的钻井溢流数据。所述的钻井溢流数据异常值处理方法,优选的,在进行所述步骤二时,具体包括如下步骤:1)设定钻井溢流数据样本集为D=(X1,X2,...,Xm),设定邻域参数为(∈,MinPts),∈为半径,MinPts为∈-邻域内最少的钻井溢流数据样本数量,通过MinPts≥n+1来设定,n为钻井溢流数据样本的维度;2)设定核心对象样本集合为聚类簇数为k=0,未访问溢流样本集合为Γ=D,簇划分为3)对于j=1,2,...,m,按如下步骤找出所有的核心对象:①通过距离度量方式,找到溢流样本Xj的∈-邻域内的子样本集N∈(Xj),距离度量公式:其中,x,y为钻井溢流数据样本集D中的任意两个样本;②如果∈-邻域子样本集的样本个数满足|N∈(Xj)|≥MinPts,将钻井溢流数据样本Xj加入核心对象样本集合Ω;4)如果核心对象样本集合则算法结束,得到不属于任何聚类簇的异常值和各个聚类簇的边界点,否则转入5步骤);5)在核心对象样本集合Ω中,随机选择一个核心对象样本o,设定当前簇核心对象样本队列为Ωcur={o},设定类别序号为k=k+1,设定当前簇样本集合为Ck={o},更新未访问溢流样本集合Γ为Γ-{o};6)如果当前簇核心对象样本队列则当前聚类簇Ck生成完毕,更新簇划分C={C1,C2,...,Ck},更新核心对象样本集合Ω为Ω-Ck,并转入步骤4);7)在当前簇核心对象样本队列Ωcur中取出一个核心对象样本o′,通过半径∈在找出所有的∈-邻域内的子样本集N∈(o′),令Δ=N∈(o′)∩Γ,更新当前簇样本集合Ck为Ck∪Δ,更新未访问溢流样本集合Γ为Γ-Δ,更新Ωcur为Ωcur∪(Δ∩Ω)-o′,并转入步骤4)。所述的钻井溢流数据异常值处理方法,优选的,在进行所述步骤二时,具体包括如下步骤:①异常值的定义:假设任意一个钻井溢流数据样本的邻域内允许的邻居数为M,若发现某个钻井溢流数据样本存在第M+1个邻居,则该钻井溢流数据样本不是异常点;反之,若某个钻井溢流数据样本的邻居数少于M个,则该钻井溢流数据样本是异常点;②邻居数的求取:首先求取任意一个钻井溢流数据样本与其他所有钻井溢流数据样本的欧式距离,然后根据欧式距离的大小来定义该钻井溢流数据样本的邻居数,对于两个多维的钻井溢流数据样本间的欧氏距离公式:式中,A,B分别为钻井溢流数据样本中的任意两个样本点;n为钻井溢流数据样本的维度;ai,bi分别为对应两个样本A,B的值;③异常值的挖掘:对于钻井溢流数据样本集,采用循环搜索样本邻居的方法发现所有钻井溢流数据样本的邻居数目m,当m≤M时,则可确定该钻井溢流数据样本是异常点;反之,m>M时,则可认为该钻井溢流数据样本是正常点。所述的钻井溢流数据异常值处理方法,优选的,原始石油钻井数据包含实时监测的动态数据和钻井过程完成时人工添加的静态数据。本专利技术由于采取以上技术方案,其具有以下优点:本专利技术通过DBSCAN聚类算法和异常值检测算法的融合,先利用DBSCAN(Density-BasedSpatialClusteringofApplicationswithNoise,具有噪声的基于密度的聚类方法)聚类算法初步分类,寻找到初步的异常值,再利用异常值检测算法对聚类边界值进行二次分析,能够更加精确的筛选出钻井溢流数据的异常值来提高数据质量。附图说明图1是本专利技术中DBSCAN聚类算法的流程示意图;图2本专利技术中异常值检测算法的流程示意图。具体实施方式以下将结合附图对本专利技术的较佳实施例进行详细说明,以便更清楚理解本专利技术的目的、特点和优点。应理解的是,附图所示的实施例并不是对本专利技术范围的限制,而只是为了说明本专利技术技术方案的实质精神。本专利技术的工作原理如下:钻井溢流数据因受到监测设备和复杂钻井环境的影响,会产生很大的数据误差和遗漏数据,钻井数据质量较差,因此本专利技术采用聚类算法和异常值检测算法相结合来检测钻井溢流数据中的异常值,达到提高数据质量的目的。本专利技术提供的基于聚类算法的钻井溢流数据异常值处理方法,包括以下步骤:步骤一:根据专家经验挑选出原始石油钻井数据中的钻井溢流表征参数,剔除因数据监测设备和实际钻井影响的无效数据,得到初步处理的钻井溢流数据。其中,原始石油钻井数据包含实时监测的动态数据和钻井过程完成时人工添加的静态数据。步骤二:如图1所示,对初步处理过的钻井溢流数据利用基于密度聚类的DBSCSN算法进行粗略分类,寻找出不属于任何聚类簇的异常值和各个聚类簇的边界点,具体包括如下步骤:1)设定钻井溢流数据样本集为D=(X1,X2,...,Xm),设定邻域参数为(∈,MinPts),∈为半径,MinPts为∈-邻域(即在某一样本点处,给定半径∈,所得到的覆盖区域)内最少的钻井溢流数据样本数量,通过MinPts≥n+1来设定,n为钻井溢流数据样本的维度;2)设定核心对象样本集合为聚类簇数为k=0,未访问溢流样本集合为Γ=D,簇本文档来自技高网...

【技术保护点】
1.一种基于聚类算法的钻井溢流数据异常值处理方法,其特征在于,包括以下步骤:/n步骤一:选出原始石油钻井数据中的钻井溢流表征参数,剔除因数据监测设备和实际钻井影响的无效数据,得到初步处理的钻井溢流数据;/n步骤二:对初步处理过的钻井溢流数据利用基于密度聚类的DBSCSN算法进行粗略分类,寻找出不属于任何聚类簇的异常值和各个聚类簇的边界点;/n步骤三:对钻井溢流数据样本聚类之后结果利用基于欧式距离的异常值检测算法进一步挖掘出钻井溢流数据的异常值,最终取得质量良好的钻井溢流数据。/n

【技术特征摘要】
1.一种基于聚类算法的钻井溢流数据异常值处理方法,其特征在于,包括以下步骤:
步骤一:选出原始石油钻井数据中的钻井溢流表征参数,剔除因数据监测设备和实际钻井影响的无效数据,得到初步处理的钻井溢流数据;
步骤二:对初步处理过的钻井溢流数据利用基于密度聚类的DBSCSN算法进行粗略分类,寻找出不属于任何聚类簇的异常值和各个聚类簇的边界点;
步骤三:对钻井溢流数据样本聚类之后结果利用基于欧式距离的异常值检测算法进一步挖掘出钻井溢流数据的异常值,最终取得质量良好的钻井溢流数据。


2.根据权利要求1所述的钻井溢流数据异常值处理方法,其特征在于,在进行所述步骤二时,具体包括如下步骤:
1)设定钻井溢流数据样本集为D=(X1,X2,...,Xm),设定邻域参数为(∈,MinPts),∈为半径,MinPts为∈-邻域内最少的钻井溢流数据样本数量,通过MinPts≥n+1来设定,n为钻井溢流数据样本的维度;
2)设定核心对象样本集合为聚类簇数为k=0,未访问溢流样本集合为Γ=D,簇划分为
3)对于j=1,2,...,m,按如下步骤找出所有的核心对象:
①通过距离度量方式,找到溢流样本Xj的∈-邻域内的子样本集N∈(Xj),距离度量公式:其中,x,y为钻井溢流数据样本集D中的任意两个样本;
②如果∈-邻域子样本集的样本个数满足|N∈(Xj)|≥MinPts,将钻井溢流数据样本Xj加入核心对象样本集合Ω;
4)如果核心对象样本集合则算法结束,得到不属于任何聚类簇的异常值和各个聚类簇的边界点,否则转入5步骤);
5)在核心对象样本集合Ω中,随机选择一个核心对象样本o,设定当前簇核心对象样本队列为Ωcur={o},设定类别序号为k=k+1,设定当前簇样本集合为Ck={o},更新未...

【专利技术属性】
技术研发人员:殷志明李梦博刘书杰许亮斌郝希宁任美鹏刘健李永华肖宏亮
申请(专利权)人:中国海洋石油集团有限公司中海油研究总院有限责任公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1