基于LightGBM的泡排剂投放智能预测方法技术

技术编号:36549321 阅读:12 留言:0更新日期:2023-02-04 17:02
本发明专利技术公开了一种基于LightGBM的泡排剂投放智能预测方法,首先需要收集油压、套压等一系列历史数组,再经过数据清洗、数据标注,并基于相关系数和方差进行三次数据筛选,选定历史数组中可以作为模型训练和验证的特征列;并基于LightGBM算法进行模型训练、测试,最终得到预测模型;最后,基于选定的特征列将实时生产数据输入预测模型,得到泡排剂预测投放量。本发明专利技术的方案是基于数据驱动的智能算法,降低人为经验的依赖,能够根据生产数据的变化,精准预测注剂量;本发明专利技术的方法同时适用于各井场的注药量预测等场景。的注药量预测等场景。的注药量预测等场景。

【技术实现步骤摘要】
基于LightGBM的泡排剂投放智能预测方法


[0001]本专利技术涉及一种油气井生产的计量方法,具体涉及一种基于人工智能算法的泡排剂投放量的预测方法。

技术介绍

[0002]目前大多气田气井产期量较低,普遍采用泡排技术来提高产气量。但泡排剂的加注量完全依赖人为经验进行预估,存在泡排加注量预估不够精准的问题,从而造成泡沫的破泡速度过慢,破泡不够及时,影响油气井产量。
[0003]Light Gradient Boosting Machine(简称:LightGBM)是一款基于决策树算法的分布式梯度提升框架,其基础算法为GBDT。该算法支持高效率并行训练,具有更快的训练速度、更低的内存消耗、更好的准确率需求等优点,在工业领域具有较多的应用。

技术实现思路

[0004]本专利技术提供一种基于LightGBM的泡排注投放的预测方法,该方法达到了能精准预测泡排剂投放量的目的,提升了泡排效率,实现了稳产和增产。采用的主要技术方案如下:
[0005]一种基于LightGBM的泡排剂投放智能预测方法,其关键是按以下步骤进行:
[0006]步骤一、收集历史数组
[0007]所述历史数组包括若干相互对应的油压、套压、日产气量、气历年累、现场核产、开井前压力、水量、泡排剂量、以及泡排剂注入形式记录;
[0008]步骤二、数据清洗
[0009]剔除油压、套压、日产气量和泡排剂量为空的历史数组;
[0010]剔除油压、套压、日产气量和泡排剂量为负的历史数组;
[0011]剔除泡排剂注入形式为自动注剂的历史数组;
[0012]步骤三、数据标注
[0013]将泡排剂量作为目标变量;
[0014]步骤四、数据筛选
[0015]基于清洗后的历史数组,将油压、套压、日产气量、气历年累、现场核产、开井前压力、水量作为备选特征,将泡排剂量作为目标变量;
[0016]首先进行一次筛选,分别计算备选特征列与目标变量列之间的第一相关系数,并设定一次筛选阈值,选定第一相关系数大于一次筛选阈值的备选特征列作为待选特征列;
[0017]其次进行二次筛选,分别计算各待选特征列之间两两相关的第二相关系数,并设定二次筛选阈值,选定第二相关系数大于二次筛选阈值的待选特征列作为晋选特征列;
[0018]最后进行三次筛选,分别计算晋选特征列的方差,设定三次筛选阈值,选定方差大于三次筛选阈值的晋选特征列作为选定特征列;
[0019]步骤五、模型训练
[0020]基于所述选定特征列,将所述历史数组划分训练集和测试集;
[0021]再基于LightGBM算法进行模型训练、测试,直到模型的测试集指标达到终止条件,输出预测模型;
[0022]步骤六、泡排剂投放预测
[0023]基于选定特征列所对应的数据类型,将实时生产数据输入预测模型,得到泡排剂预测投放量。
附图说明
[0024]图1为本专利技术的流程图。
具体实施方式
[0025]以下结合实施例和附图对本专利技术作进一步说明。
[0026]如图1所示,一种基于LightGBM的泡排剂投放智能预测方法,按以下步骤进行:
[0027]步骤一、收集历史数组
[0028]所述历史数组包括若干相互对应的油压、套压、日产气量、气历年累、现场核产、开井前压力、水量、泡排剂量、以及泡排剂注入形式记录;
[0029]步骤二、数据清洗
[0030]剔除油压、套压、日产气量和泡排剂量为空的历史数组;
[0031]剔除油压、套压、日产气量和泡排剂量为负的历史数组;
[0032]剔除泡排剂注入形式为自动注剂的历史数组;
[0033]步骤三、数据标注
[0034]将泡排剂量作为目标变量;
[0035]步骤四、数据筛选
[0036]基于清洗后的历史数组,将油压、套压、日产气量、气历年累、现场核产、开井前压力、水量作为备选特征,将泡排剂量作为目标变量;
[0037]各备选特征所在的同一列称为备选特征列,目标变量所在的同一列称为目标变量列;
[0038]首先进行一次筛选,分别计算备选特征列与目标变量列之间的第一相关系数,并设定一次筛选阈值,选定第一相关系数大于一次筛选阈值的备选特征列作为待选特征列;其中,一次筛选阈值是人为指定的;
[0039]其次进行二次筛选,分别计算各待选特征列之间两两相关的第二相关系数,并设定二次筛选阈值,选定第二相关系数大于二次筛选阈值的待选特征列作为晋选特征列;其中,二次筛选阈值是人为指定的;
[0040]选定晋选特征列时,当两个待选特征列之间的第二相关系数大于二次筛选阈值时,可以选择其中任一个待选特征列为晋选特征列;也可以同时选择两个待选特征列为晋选特征列;也可以人为指定保留规则,得到晋选特征列;
[0041]最后进行三次筛选,分别计算晋选特征列的方差,设定三次筛选阈值,选定方差大于三次筛选阈值的晋选特征列作为选定特征列;
[0042]作为一种更为具体的相关性表示,在进行一次筛选、二次筛选时,可以均以皮尔森相关系数来衡量相关性:
[0043]皮尔森相关系数按照以下公式

计算:
[0044][0045]其中:
[0046]cov(x,y)为待计算的两列数据之间的协方差;
[0047]σ
x
为待计算的第一列数据的标准差;
[0048]σ
y
为待计算的第二列数据的标准差。
[0049]例如:
[0050]在一次筛选时:
[0051]cov(x,y)分别为各个备选特征列(油压列、套压列,

)与目标变量列之间的协方差;
[0052]σ
x
为各个备选特征列的标准差;
[0053]σ
y
为目标变量列的标准差。
[0054]在二次筛选时:
[0055]cov(x,y)分别为各个待选特征列两两之间的协方差;
[0056]σ
x
为待计算的第一列待选特征列的标准差;
[0057]σ
y
为待计算的第二列待选特征列的标准差。
[0058]步骤五、模型训练
[0059]基于所述选定特征列,将所述历史数组划分训练集和测试集;一般的,训练集和测试集的数据量按照8:2的比例进行划分。
[0060]再基于LightGBM算法进行模型训练、测试,直到模型的测试集指标达到终止条件,输出预测模型;
[0061]终止条件是人为设定的,例如:当测试集的绝对误差小于0.5时,输出预测模型;
[0062]步骤六、泡排剂投放预测
[0063]基于选定特征列所对应的数据类型,将实时生产数据输入预测模型,
[0064]例如,如果选定特征列为油压所在列、套压所在列、日产气量所在列和气历年累所在列;本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于LightGBM的泡排剂投放智能预测方法,其特征在于按以下步骤进行:步骤一、收集历史数组所述历史数组包括若干相互对应的油压、套压、日产气量、气历年累、现场核产、开井前压力、水量、泡排剂量、以及泡排剂注入形式记录;步骤二、数据清洗剔除油压、套压、日产气量和泡排剂量为空的历史数组;剔除油压、套压、日产气量和泡排剂量为负的历史数组;剔除泡排剂注入形式为自动注剂的历史数组;步骤三、数据标注将泡排剂量作为目标变量;步骤四、数据筛选基于清洗后的历史数组,将油压、套压、日产气量、气历年累、现场核产、开井前压力、水量作为备选特征,将泡排剂量作为目标变量;首先进行一次筛选,分别计算备选特征列与目标变量列之间的第一相关系数,并设定一次筛选阈值,选定第一相关系数大于一次筛选阈值的备选特征列作为待选特征列;其次进行二次筛选,分别计算各待选特征列之间两两相关的第二相关系数,并设定二次筛选阈值,选定第二相关系数大于二次筛选阈值的待选特征列作为晋选特征列;最后进行三次筛选,分别计算晋选特征列的方差,设定三次筛选阈值,选定方差大于三次筛选阈值的晋选特征列作为选定特征列;步骤五、模型训练基于所述选定特征列,将所述历史数组划分训练集和测试集;再基于LightGBM算法进行模型训练、测试,直...

【专利技术属性】
技术研发人员:周建峰李晓芳朱运周崔文豪李坡郭淑雯刘凯田小凯安步远
申请(专利权)人:海默潘多拉数据科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1