一种基于强化学习的浓密机在线控制方法技术

技术编号:22439033 阅读:28 留言:0更新日期:2019-11-01 22:16
本发明专利技术提供一种基于强化学习的浓密机在线控制方法,能够降低时间消耗,并提高控制精度。所述方法包括:获取生产过程中所监测到的历史记录数据;建立由模型网络和评价网络组成的双网结构的控制模型,并利用获取到的历史记录数据对所述模型网络和评价网络进行训练;通过训练好的模型网络预测下一时刻的底流浓度和泥层高度,且训练好的评价网络根据预测到的所述下一时刻的底流浓度、泥层高度,估计所述下一时刻的累计代价值,根据估计得到的下一时刻的累计代价值,计算当前时刻的累计代价值,根据得到的当前时刻的累计代价值,利用梯度下降迭代算法确定当前时刻最优控制动作:底流泵速、絮凝剂泵速。本发明专利技术涉及采矿领域。

An online control method of thickener based on Reinforcement Learning

【技术实现步骤摘要】
一种基于强化学习的浓密机在线控制方法
本专利技术涉及采矿领域,特别是指一种基于强化学习的浓密机在线控制方法。
技术介绍
在冶金领域等复杂过程工业场景下,浓密机是一个被广泛应用的大型沉降工具,它通过重力沉降作用可以将低浓度的固液混合物进行浓缩形成高浓度的混合物,起到减水、浓缩的作用。在实际生产过程中,由于浓密机运行机理复杂,难以建立数学模型,大部分的控制算法都是基于人工设计的专家系统或手工制定模糊控制器中的规则库,并辅助以传统的比例积分控制手段实现对底流泵速、絮凝剂泵速的控制。此类方法过度依赖人工经验、缺乏自适应性。
技术实现思路
本专利技术要解决的技术问题是提供一种基于强化学习的浓密机在线控制方法,以解决现有技术所存在的难以建立数学模型,浓密机控制方法过度依赖人工经验、缺乏自适应性的问题。为解决上述技术问题,本专利技术实施例提供一种基于强化学习的浓密机在线控制方法,包括:获取生产过程中所监测到的历史记录数据,所述历史记录数据包括:底流浓度、泥层高度、进料流量、进料浓度、底流泵速以及絮凝剂泵速;建立由模型网络和评价网络组成的双网结构的控制模型,并利用获取到的历史记录数据对所述模型网络和评价网络进行训练;通过训练好的模型网络预测下一时刻的底流浓度和泥层高度,且训练好的评价网络根据预测到的所述下一时刻的底流浓度、泥层高度,估计所述下一时刻的累计代价值,根据估计得到的下一时刻的累计代价值,计算当前时刻的累计代价值,根据得到的当前时刻的累计代价值,利用梯度下降迭代算法确定当前时刻最优控制动作:底流泵速、絮凝剂泵速。进一步地,在建立由模型网络和评价网络组成的双网结构的控制模型,并利用获取到的历史记录数据对所述模型网络和评价网络进行训练之前,所述方法还包括:对获取到的底流浓度、泥层高度、进料流量、进料浓度、底流泵速以及絮凝剂泵速进行归一化放缩,其中,归一化放缩的公式为:其中,z表示获取到的原始参量值,参量为底流浓度、泥层高度、进料流量、进料浓度、底流泵速或絮凝剂泵速;表示归一化放缩后的参量值;zmin表示参量z的最小值;zmax表示参量z的最大值。进一步地,模型网络表示为:其中,k为采样时间;分别表示模型网络预测的k+1时刻的底流浓度、泥层高度;Wm1和Wm2都表示模型网络的权重;tanh为激活函数;分别表示归一化放缩后的底流浓度、泥层高度、进料流量、进料浓度、底流泵速、絮凝剂泵速;表示归一化放缩后的控制动作;上标T表示矩阵转置。进一步地,在训练模型网络的过程中调整权重Wm1和Wm2,当模型网络的损失函数的值收敛到第一预设值,则表明模型网络训练完成,其中,模型网络的损失函数表示为:其中,Em(k)表示模型网络的损失函数;em(k)为简写形式,分别表示实际的k+1时刻的底流浓度、泥层高度。进一步地,在训练模型网络的过程中,采用梯度下降法来调节权值,表示为:其中,lm表示学习率,i表示第i个权重。进一步地,评价网络表示为:其中,表示累计代价函数值;Wc1和Wc2都表示评价网络的权重。进一步地,在训练评价网络的过程中,使用基于经验回放技术的损失函数训练评价网络,当评价网络的损失函数的值收敛到第二预设值,则表明评价网络训练完成,其中,评价网络的损失函数表示为:其中,ec(k)表示评价网络的损失函数;L表示回放点数;U()表示效用函数;γ表示折扣因子。进一步地,在训练评价网络的过程中,采用梯度下降法来调节权值,表示为:其中,lc表示学习率,i表示第i个权重。进一步地,所述通过训练好的模型网络预测下一时刻的底流浓度和泥层高度,且训练好的评价网络根据预测到的所述下一时刻的底流浓度、泥层高度,估计所述下一时刻的累计代价值,根据估计得到的下一时刻的累计代价值,计算当前时刻的累计代价值,根据得到的当前时刻的累计代价值,利用梯度下降迭代算法确定当前时刻最优控制动作:底流泵速、絮凝剂泵速包括:A1,随机选取控制动作初始化j=0;A2,通过训练好的模型网络,预测下一时刻的底流浓度、泥层高度:其中,k为采样时间,即:当前时刻;k+1为下一时刻;A3,已训练好的评价网络,根据预测到的下一时刻的底流浓度、泥层高度,估计下一时刻的累计代价值:其中,A4,根据估计得到的下一时刻的累计代价值,计算当前k时刻的累计代价值:其中,表示第j次迭代得到的控制动作A5,根据得到的当前k时刻的累计代价值,利用梯度下降算法对进行更新:其中,lu为学习率;A6,j=j+1;A7,返回执行步骤A1-A6,直到的变化值小于预设的第三阈值,或者当前的迭代次数大于预设的最大迭代次数,此时的为最优控制动作:底流泵速、絮凝剂泵速。A8,对进行反归一化,得到最终的最优控制动作u:其中,⊙表示按位乘,umax、umin、umid分别表示控制动作的上限、下限、上限与下限的均值。进一步地,在建立由模型网络和评价网络组成的双网结构的控制模型,并利用获取到的历史记录数据对所述模型网络和评价网络进行训练之后,所述方法还包括:获取实际充填过程中所监测到的实时监测数据;利用所述实时监测数据对评价网络进行学习训练;或,在建立由模型网络和评价网络组成的双网结构的控制模型,并利用获取到的历史记录数据对所述模型网络和评价网络进行训练之后,所述方法还包括:建立浓密机仿真模型;使用建立好的浓密机仿真模型验证所述控制模型的有效性。本专利技术的上述技术方案的有益效果如下:上述方案中,获取生产过程中所监测到的历史记录数据,所述历史记录数据包括:底流浓度、泥层高度、进料流量、进料浓度、底流泵速以及絮凝剂泵速;建立由模型网络和评价网络组成的双网结构的控制模型,并利用获取到的历史记录数据对所述模型网络和评价网络进行训练;通过训练好的模型网络预测下一时刻的底流浓度和泥层高度,且训练好的评价网络根据预测到的所述下一时刻的底流浓度、泥层高度,估计所述下一时刻的累计代价值,根据估计得到的下一时刻的累计代价值,计算当前时刻的累计代价值,根据得到的当前时刻的累计代价值,利用梯度下降迭代算法确定当前时刻最优控制动作:底流泵速、絮凝剂泵速。这样的控制模型不仅具有自适应、不依赖于精确数学模型的特点,同时相比较已有的自适应动态规划算法,该控制模型在双网结构中去掉了动作网络,直接采用梯度下降迭代算法求解控制动作,有着更少的时间消耗和更高的控制精度,且结构简单。附图说明图1为本专利技术实施例提供的浓密机系统的结构示意图;图2为本专利技术实施例提供的基于强化学习的浓密机在线控制方法的流程示意图;图3为本专利技术实施例提供的基于强化学习的浓密机在线控制方法的详细流程示意图;图4为本专利技术实施例提供的模型网络的结构示意图;图5为本专利技术实施例提供的噪音量变化曲线示意图一;图6(a)、(b)分别为本专利技术实施例提供的HCNVI与其他ADP算法的底流浓度、效用值对比示意图;图7(a)、(b)分别为本专利技术实施例提供的在HDP算法、HCNVI算法中引入经验回放对效用值的影响示意图;图8为本专利技术实施例提供的HDP与HCNVI在时间消耗上的对比示意图一;图9为本专利技术实施例提供的噪音量变化曲线示意图二;图10(a)、(b)分别为本专利技术实施例提供的HCNVI与其他ADP算法在波动噪声输入下的底流浓度、效用值对比示意图;图11(a)、(b)为本专利技术实施例提供的噪音持续变化下经验回放对HCNV本文档来自技高网...

【技术保护点】
1.一种基于强化学习的浓密机在线控制方法,其特征在于,包括:获取生产过程中所监测到的历史记录数据,所述历史记录数据包括:底流浓度、泥层高度、进料流量、进料浓度、底流泵速以及絮凝剂泵速;建立由模型网络和评价网络组成的双网结构的控制模型,并利用获取到的历史记录数据对所述模型网络和评价网络进行训练;通过训练好的模型网络预测下一时刻的底流浓度和泥层高度,且训练好的评价网络根据预测到的所述下一时刻的底流浓度、泥层高度,估计所述下一时刻的累计代价值,根据估计得到的下一时刻的累计代价值,计算当前时刻的累计代价值,根据得到的当前时刻的累计代价值,利用梯度下降迭代算法确定当前时刻最优控制动作:底流泵速、絮凝剂泵速。

【技术特征摘要】
1.一种基于强化学习的浓密机在线控制方法,其特征在于,包括:获取生产过程中所监测到的历史记录数据,所述历史记录数据包括:底流浓度、泥层高度、进料流量、进料浓度、底流泵速以及絮凝剂泵速;建立由模型网络和评价网络组成的双网结构的控制模型,并利用获取到的历史记录数据对所述模型网络和评价网络进行训练;通过训练好的模型网络预测下一时刻的底流浓度和泥层高度,且训练好的评价网络根据预测到的所述下一时刻的底流浓度、泥层高度,估计所述下一时刻的累计代价值,根据估计得到的下一时刻的累计代价值,计算当前时刻的累计代价值,根据得到的当前时刻的累计代价值,利用梯度下降迭代算法确定当前时刻最优控制动作:底流泵速、絮凝剂泵速。2.根据权利要求1所述的基于强化学习的浓密机在线控制方法,其特征在于,在建立由模型网络和评价网络组成的双网结构的控制模型,并利用获取到的历史记录数据对所述模型网络和评价网络进行训练之前,所述方法还包括:对获取到的底流浓度、泥层高度、进料流量、进料浓度、底流泵速以及絮凝剂泵速进行归一化放缩,其中,归一化放缩的公式为:其中,z表示获取到的原始参量值,参量为底流浓度、泥层高度、进料流量、进料浓度、底流泵速或絮凝剂泵速;表示归一化放缩后的参量值;zmin表示参量z的最小值;zmax表示参量z的最大值。3.根据权利要求2所述的基于强化学习的浓密机在线控制方法,其特征在于,模型网络表示为:其中,k为采样时间;分别表示模型网络预测的k+1时刻的底流浓度、泥层高度;Wm1和Wm2都表示模型网络的权重;tanh为激活函数;分别表示归一化放缩后的底流浓度、泥层高度、进料流量、进料浓度、底流泵速、絮凝剂泵速;表示归一化放缩后的控制动作;上标T表示矩阵转置。4.根据权利要求3所述的基于强化学习的浓密机在线控制方法,其特征在于,在训练模型网络的过程中调整权重Wm1和Wm2,当模型网络的损失函数的值收敛到第一预设值,则表明模型网络训练完成,其中,模型网络的损失函数表示为:其中,Em(k)表示模型网络的损失函数;em(k)为简写形式,分别表示实际的k+1时刻的底流浓度、泥层高度。5.根据权利要求4所述的基于强化学习的浓密机在线控制方法,其特征在于,在训练模型网络的过程中,采用梯度下降法来调节权值,表示为:其中,lm表示学习率,i表示第i个权重。6.根据权利要求5所述的基于强化学习的浓密机在线控制方法,其特征在于,评价网络表示为:其中,表示累计代价函数值;Wc1和Wc2都表示评价网络的权重。7.根据权利要求6所述...

【专利技术属性】
技术研发人员:班晓娟袁兆麟刘婷李佳何润姿
申请(专利权)人:北京科技大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1