一种继承历史经验的生产优化机器学习离线模型构建方法技术

技术编号:35307253 阅读:17 留言:0更新日期:2022-10-22 12:57
本发明专利技术公开了一种继承历史经验的生产优化机器学习离线模型构建方法,属于石油技术领域。本发明专利技术利用强化学习近端策略优化算法以及遗传算法,可以将计算分配到多个CPU中完成并行计算,各进程间进行数据池共享,提高采样效率,通过提供多样化的探索经验来训练强化学习智能体,提高稳定性和鲁棒性;同时训练后的策略网络可在再次优化时直接给出最优的生产制度,无需重复进行高昂的优化过程。无需重复进行高昂的优化过程。无需重复进行高昂的优化过程。

【技术实现步骤摘要】
一种继承历史经验的生产优化机器学习离线模型构建方法


[0001]本专利技术属于石油
,具体涉及一种继承历史经验的生产优化机器学习离线模型构建方法。

技术介绍

[0002]在过去的几十年里,石油和天然气行业在国际经济中发挥着不可思议的影响,并将在未来几年继续成为全球能源的支柱。目前我国相当多的油田已经进入成熟期。因此,在国际油价持续波动的背景下,努力提高现有油气藏的油气生产效率至关重要。随着数字油田和智能油田的技术发展,生产优化作为一种系统化的工作流程,已经引起了油藏工作者越来越多的关注。生产优化的目的是获得每口井的最佳开发方案(如流量、位置和压力),以实现经济效益或累积油气产量的最大化。然而,实际生产中的优化问题并不是一项简单的任务,受到决策变量和目标函数之间的强非线性的挑战。此外,优化的解决方案必须满足所需的物理和操作约束,以确保其可行性。不幸的是,一次模拟运行可能会花费相对较长的时间,而一个完整的优化一般需要数千次模拟运行。因此,急于开发具有高效率的算法来应对这些挑战。
[0003]尽管强化学习成功地提高了实时生产优化的性能,但仍然有两个缺点阻碍了它的性能。首先,强化学习在面对大的状态空间和动作空间时缺乏有效且多样化的探索策略。一般来说,实际的油藏模型包含大量的网格并涉及大量的决策变量,很难学习到一种能够很好地建立油藏状态与井控之间映射关系的策略。其次,强化学习具有脆弱的收敛特性,尤其是在交互过程中奖励不均匀时。所提出方法的主要创新是引入基于种群的遗传算法,以提供多样化的探索经验来训练强化学习智能体并提高稳定性和鲁棒性。

技术实现思路

[0004]针对现有技术中存在的上述技术问题,本专利技术提出了一种继承历史经验的生产优化机器学习离线模型构建方法,设计合理,克服了现有技术的不足,具有良好的效果。
[0005]为了实现上述目的,本专利技术采用如下技术方案:
[0006]一种继承历史经验的生产优化机器学习离线模型构建方法,包括以下步骤:
[0007]步骤1:建立待优化区域油藏数值模型,获取模型中需调控注入井及其注入量约束、生产井及其产量约束、以及油藏的含水率或地层压力约束;
[0008]步骤2:初始化种群G以及经验存放数据池Ω;种群G包括N
e
个策略网络;
[0009]步骤3:采用近端策略优化算法,搭建深度强化学习框架,初始化N
r
个智能体;
[0010]步骤4:初始化训练参数及油藏状态信息,包括油藏地层压力及剩余油饱和度信息;
[0011]步骤5:根据种群G中不同策略网络生成的当前状态S
t
下的动作空间a
t
,与环境模型数值模拟器进行交互,得到奖励r
t
和下一状态S
t+1
,计算整个生产周期的总收益作为种群G内个体适应度值,强化学习策略以相同方法计算整个生产周期内的总收益;
[0012]步骤6:采用遗传算法进行种群中的参数更新;
[0013]步骤7:进行近端策略优化算法的策略更新;
[0014]当共享经验池中样本数量足够多时,在经验池内选取一定数量样本{S
t
,A,r
t
,S
t+1
}进行策略网络和动作价值网络的更新;
[0015]步骤8:定期将通过近端策略优化算法训练的策略网络,复制到遗传算法种群G中,以替换最弱的个体;
[0016]步骤9:重复步骤4~步骤8,直至满足迭代收敛条件;
[0017]步骤10:根据保存的最优策略网络,输入油藏的状态信息,即能够输出完整的生产制度。
[0018]优选地,步骤1中获取模型约束变量的具体步骤为:
[0019]步骤1.1:注入井为线性约束,注入井采用流量控制:
[0020]单井日注入量∈[x,y];
[0021]其中,x为下边界;y为上边界设为最大注水速率;
[0022]步骤1.2:生产井为线性约束,采用井底压力控制:
[0023]井底压力∈[m,n];
[0024]其中,m下边界为油藏泡点压力,n上边界设为油藏平均压力;
[0025]步骤1.3:同时考虑包括油藏的含水率或地层压力在内的非线性约束。
[0026]优选地,在步骤3中,具体包括如下步骤:
[0027]步骤3.1:强化学习是智能体以“试错”的方式进行学习,通过与环境进行交互获得的奖赏指导行为,目标是使智能体获得最大的奖赏;采用近端策略优化算法,将注采优化问题建模为马尔可夫决策,并定义如下关键要素:策略、状态、动作以及奖励函数;
[0028]步骤3.2:使用θ参数化的神经网络π
θ
(a
t
|s
t
)表示策略网络,该网络的输入为状态s
t
,输出为动作a
t
;使用ω参数化的神经网络V
ω
(s
t
)表示动作价值网络,游客成为Q网络,动作价值网络的输入为状态s
t
,输出为价值。
[0029]优选地,在步骤5中,具体包括如下步骤:
[0030]步骤5.1:对油藏数值模拟的RSM输出文件进行读取,以矩阵形式作为网格的输入;
[0031]s
t
={s
o,1
,
···
,s
o,n
;p1,
···
,p
n
}
ꢀꢀꢀꢀꢀꢀꢀ
(1);
[0032]式中,s
t
表示第t时刻状态,p
i
表示油藏模型每个网格点的压力值,s
o,i
表示含油饱和度值;
[0033]步骤5.2:动作a
t
设置为第t时间步内各井的井控方案,如公式(2)所示:
[0034][0035]式中,W
prd,i
表示第i口生产井的产液量,W
inj,i
表示第i口注水井的注水速率;
[0036]步骤5.3:奖励r
t
采用当前时间步的经济净现值NPV表示,如公式(3)所示:
[0037][0038]式中,q
o,j
,q
w,j
和q
wi,i
分别是第j口生产井日产油、第j口生产井日产水和第i口注水井的日注入量,单位为m3/d,r
o
为原油价格,r
w
和r
i
分别是水处理成本和注水成本,单位为元/m3;
[0039]步骤5.4:循环进行以下步骤5.4.1

5.4.2,直至完成整个生产周期的数值模拟过程,
[0040]步骤5.4.1:读取当前状态下的油藏地层压力和饱和度信息,将油藏状态信息输入策略网络,输出将当前t时刻井的控制变量a
t
,并写本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种继承历史经验的生产优化机器学习离线模型构建方法,其特征在于:包括以下步骤:步骤1:建立待优化区域油藏数值模型,获取模型中需调控注入井及其注入量约束、生产井及其产量约束、以及油藏的含水率或地层压力约束;步骤2:初始化种群G以及经验存放数据池Ω;种群G包括N
e
个策略网络;步骤3:采用近端策略优化算法,搭建深度强化学习框架,初始化N
r
个智能体;步骤4:初始化训练参数及油藏状态信息,包括油藏地层压力及剩余油饱和度信息;步骤5:根据种群G中不同策略网络生成的当前状态S
t
下的动作空间a
t
,与环境模型数值模拟器进行交互,得到奖励r
t
和下一状态S
t+1
,计算整个生产周期的总收益作为种群G内个体适应度值,强化学习策略以相同方法计算整个生产周期内的总收益;步骤6:采用遗传算法进行种群中的参数更新;步骤7:进行近端策略优化算法的策略更新;当共享经验池中样本数量足够多时,在经验池内选取一定数量样本{S
t
,A,r
t
,S
t+1
}进行策略网络和动作价值网络的更新;步骤8:定期将通过近端策略优化算法训练的策略网络,复制到遗传算法种群G中,以替换最弱的个体;步骤9:重复步骤4~步骤8,直至满足迭代收敛条件;步骤10:根据保存的最优策略网络,输入油藏的状态信息,即能够输出完整的生产制度。2.根据权利要求1所述的继承历史经验的生产优化机器学习离线模型构建方法,其特征在于:步骤1中获取模型约束变量的具体步骤为:步骤1.1:注入井为线性约束,注入井采用流量控制:单井日注入量∈[x,y];其中,x为下边界;y为上边界设为最大注水速率;步骤1.2:生产井为线性约束,采用井底压力控制:井底压力∈[m,n];其中,m下边界为油藏泡点压力,n上边界设为油藏平均压力;步骤1.3:同时考虑包括油藏的含水率或地层压力在内的非线性约束。3.根据权利要求1所述的继承历史经验的生产优化机器学习离线模型构建方法,其特征在于:在步骤3中,具体包括如下步骤:步骤3.1:强化学习是智能体以“试错”的方式进行学习,通过与环境进行交互获得的奖赏指导行为,目标是使智能体获得最大的奖赏;采用近端策略优化算法,将注采优化问题建模为马尔可夫决策,并定义如下关键要素:策略、状态、动作以及奖励函数;步骤3.2:使用θ参数化的神经网络π
θ
(a
t
|s
t
)表示策略网络,该网络的输入为状态s
t
,输出为动作a
t
;使用ω参数化的神经网络V
ω
(s
t
)表示动作价值网络,游客成为Q网络,动作价值网络的输入为状态s
t
,输出为价值。4.根据权利要求1所述的继承历史经验的生产优化机器学习离线模型构建方法,其特征在于:在步骤5中,具体包括如下步骤:步骤5.1:对油藏数值模拟的RSM输出文件进行读取,以矩阵形式作为网格的输入;
s
t
={s
o,1
,
···
,s
o,n
;p1,
···
,p
n
}
ꢀꢀꢀꢀꢀꢀꢀꢀ
(1);式中,s
t
表示第t时刻状态,p
i
表示油藏模型每个网格点的压力值,s
o,i
表示含油饱和度值;步骤5.2:动作a
t
设置为第t时间步内各井的井控方案,如公式(2)所示:式中,W
prd,i
表示第i口生产井的产液量,W
inj,i
表示第i口注水井的注水速率;步骤5.3:奖励r
t
采用当前时间步的经济净现值NPV表示,如公式(3)所示:式中,q
o,j
,q
w,j
和q
wi,i
分别是第j口生产井日产油、第j口生产井日产水和第i口注水井的日注入量,单位为m3/d,r
o
为原油价格,r
w
和r
i
分别是水处理成本和注水成本,单位为元/m3;步骤5.4:循环进行以下步骤5.4.1

5.4.2,直至完成整个生产周期的数值模拟过程,步骤5.4.1:读取当前状态下的油藏地层压力和饱和度信息,将油藏状态信息输入策略网络...

【专利技术属性】
技术研发人员:张凯辛国靖王中正张黎明严侠刘丕养张华清杨永飞孙海姚军
申请(专利权)人:中国石油大学华东
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1