一种基于深度强化学习的反应温度控制方法和系统技术方案

技术编号:33132829 阅读:11 留言:0更新日期:2022-04-17 00:53
本发明专利技术公开了一种基于深度强化学习的反应温度控制方法和系统,该控制方法通过温度控制模型输出用于调整加热时间和温度的控制参数,其温度控制模型基于柔性动作评价算法框架建立,可以通过深度强化学习的方式对温度控制模型内部的策略网络进行权重更新,使得在经过多次迭代学习后,策略网络可以具备更好地预测准确性,从而提高控制参数输出的合理性,同时使评价网络所输出的评价值可以在该过程中对策略网络输出的控制参数进行准确的评价,反向地对控制参数的调整作出指导,最终的目的均是使得控制参数可以更为准确地控制加热设备,从而使胶体金制备过程中的温度可以实现动态的稳定,减少外界因素的干扰,从而达到最优的制备效果。备效果。备效果。

【技术实现步骤摘要】
一种基于深度强化学习的反应温度控制方法和系统


[0001]本专利技术涉及胶体金制备
,具体涉及一种基于深度强化学习的反应温度控制方法和系统。

技术介绍

[0002]胶体金(又称金溶液)是一种稳定的金颗粒悬浮液,基于胶体金发展有多种生物化学检测技术,例如免疫胶体金电镜染色法、胶体金免疫层析法等,利用待检测物与胶体金试剂发生特异性反应而聚集在检测带上的特定位置,可通过肉眼观察显色结果,从而方便快速地对病毒抗体进行定性和半定量检测,故以胶体金为原料的检测方法和胶体金试剂条在免疫学诊断、传染病筛查等方面得到广泛应用。
[0003]胶体金试剂条的制备过程一般包含对胶体金颗粒、金标记物、金标垫、硝酸纤维素膜和样本垫的制作,以及最终对整个试剂条的装配。其中胶体金颗粒的制备过程十分重要,其质量的好坏可直接影响相关免疫检测方法的准确性和有效性。而反应温度是影响胶体金质量的关键因素之一,在将C6H5Na3O7(柠檬酸三钠)加入到沸腾的AuCl4H(氯金酸)溶液中,需要控制反应温度和沸腾时间,以保证胶体金的稳定性等特性。
[0004]传统的通过加热板对液体加热的方式会由于气泡出现干点,可能导致金颗粒失水而丧失相关特性,因此在制备过程中需要对加热温度进行更加准确地控制,以保证能够获得质量符合要求的胶体金产物。

技术实现思路

[0005]本专利技术的目的在于克服
技术介绍
中存在的上述缺陷或问题,提供一种基于深度强化学习的反应温度控制方法和系统,该控制方法可以更为准确地控制加热设备,从而使胶体金制备过程中的温度可以实现动态的稳定,减少外界因素的干扰,从而达到最优的制备效果。
[0006]为达成上述目的,本专利技术采用如下技术方案:
[0007]一种基于深度强化学习的反应温度控制方法,其用于对加热设备进行温度控制,所述加热设备用于通过介质对反应容器进行加热,所述反应容器内容置有用于制备胶体金的反应溶液,所述加热设备在以初始参数运行后基于控制参数进行控制,所述初始参数包括初始加热温度和初始加热时间;所述反应溶液以状态参数进行评价,并在所述状态参数达到预设的目标值时判定所述反应溶液达到要求;所述控制参数包括加热温度调整值和加热时间调整值,其基于温度控制模型获得,并用于根据预设的周期持续调整所述初始参数;所述状态参数基于所述反应溶液的平均温度、所述介质的平均温度、所述反应容器的侧部内壁温度、所述反应容器的底部内壁温度和所述反应溶液的平均浓度获得;所述温度控制模型基于柔性动作评价算法框架建立,其包括策略网络、评价网络和损失函数;所述策略网络用于根据当前周期结束时的状态参数输出下一周期的控制参数和下一周期结束时的状态参数的预测值;所述评价网络用于根据每一周期结束时的状态参数的实际值和所述状态
参数的目标值对与该周期对应的所述控制参数进行评价并输出评价参数;所述损失函数用于根据每一周期结束时的状态参数的实际值和与该周期对应的所述状态参数的预测值输出期望损失;所述温度控制模型基于所述评价参数和所述期望损失,通过梯度下降方法更新所述策略网络的权重,以使所述状态参数在每一周期结束时的实际值趋近所述的目标值,并使所述状态参数在每一周期结束时的预测值趋近所述的实际值。
[0008]进一步的,所述状态参数包括所述反应溶液的平均温度与所述介质的平均温度的差、所述反应容器的侧部内壁温度和底部内壁温度的差和所述反应溶液的平均浓度;所述状态参数达到预设的目标值指所述反应溶液的平均温度和所述介质的平均温度的差低于第一阈值、所述反应容器的侧部内壁温度和底部内壁温度的差低于第二阈值和所述反应溶液的平均浓度达到符合要求的浓度值。
[0009]进一步的,所述第一阈值为0.01℃;所述第二阈值为0.01℃。
[0010]进一步的,所述损失函数为均方误差损失函数;所述梯度下降方法中的梯度根据反向传播算法获得。
[0011]进一步的,所述温度控制模型还包括随机探索函数;所述随机探索函数用于输出随机的控制参数至所述策略网络;所述策略网络基于该随机的控制参数获得与该随机的控制参数对应的周期结束时的状态参数的预测值;所述评价网络基于该预测值和所述的状态参数的目标值对该随机的控制参数进行评价并输出评价参数;所述温度控制模型基于该评价参数通过梯度下降方法更新所述策略网络的权重以使该预测值趋近所述的状态参数的目标值。
[0012]进一步的,所述控制参数在每次输出时其加热温度调整值为为0或1℃,加热时间调整值为0或30s,调整方向包括增加和减少。
[0013]进一步的,所述加热设备在加热时间为0时停止加热。
[0014]此外,本专利技术还提供一种基于深度强化学习的胶体金制备过程中反应温度的控制系统,其用于对加热设备进行温度控制,所述加热设备用于通过介质对反应容器进行加热,所述反应容器内容置有用于制备胶体金的反应溶液,包括控制单元和传感单元;所述控制单元用于根据如上述任一项所述的一种基于深度强化学习的反应温度控制方法控制所述加热设备;所述传感单元用于获取所述反应溶液的平均温度、所述介质的平均温度、所述反应容器的侧部内壁温度、所述反应容器的底部内壁温度和所述反应溶液的平均浓度。
[0015]此外,本专利技术还提供一种控制装置,包括处理器和与所述处理器通信连接的存储介质;所述存储介质适于存储多条指令;所述处理器适于调用所述存储介质中的指令以实现如上述任一项所述的一种基于深度强化学习的反应温度控制方法。
[0016]此外,本专利技术还提供一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如上述任一项所述的一种基于深度强化学习的反应温度控制方法。
[0017]由上述对本专利技术的描述可知,相对于现有技术,本专利技术具有如下有益效果:
[0018]本专利技术所提供的温度控制方法利用深度强化学习算法和模型保证胶体金制备过程中温度控制的准确性,其通过预设的初始参数使加热设备以预设温度加热一段时间,并通过温度控制模型对这一初始参数进行周期性地调整,在每一次调整中输出控制参数,并通过对实际的状态参数的获取以及预测的状态参数之间进行比较分析,对输出控制参数的
策略网络进行权重更新,在经过多次迭代学习后,策略网络可以具备更好地预测准确性,从而提高控制参数输出的合理性,相应的,评价网络所输出的评价值可以在该过程中对策略网络输出的控制参数进行准确的评价,反向地对控制参数的调整作出指导,最终的目的均是使得控制参数可以更为准确地控制加热设备,从而使胶体金制备过程中的温度可以实现动态的稳定,减少外界因素的干扰,从而达到最优的制备效果。
[0019]此外,本专利技术所提供的温度控制方法中的温度控制模型的建立基于柔性动作评价算法,该算法基于最大熵深度强化学习,克服了普通深度强化学习中采样复杂度高、模型收敛困难的缺陷,其可以使深度强化学习的收益最大化,并且让策略分布的熵最大化,达到策略分布尽可能随机的效果,从而增大深度强化学习算法的稳定性和探索性。
附图说明
[002本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度强化学习的反应温度控制方法,其用于对加热设备进行温度控制,所述加热设备用于通过介质对反应容器进行加热,所述反应容器内容置有用于制备胶体金的反应溶液,其特征是,所述加热设备在以初始参数运行后基于控制参数进行控制,所述初始参数包括初始加热温度和初始加热时间;所述反应溶液以状态参数进行评价,并在所述状态参数达到预设的目标值时判定所述反应溶液达到要求;所述控制参数包括加热温度调整值和加热时间调整值,其基于温度控制模型获得,并用于根据预设的周期持续调整所述初始参数;所述状态参数基于所述反应溶液的平均温度、所述介质的平均温度、所述反应容器的侧部内壁温度、所述反应容器的底部内壁温度和所述反应溶液的平均浓度获得;所述温度控制模型基于柔性动作评价算法框架建立,其包括策略网络、评价网络和损失函数;所述策略网络用于根据当前周期结束时的状态参数输出下一周期的控制参数和下一周期结束时的状态参数的预测值;所述评价网络用于根据每一周期结束时的状态参数的实际值和所述状态参数的目标值对与该周期对应的所述控制参数进行评价并输出评价参数;所述损失函数用于根据每一周期结束时的状态参数的实际值和与该周期对应的所述状态参数的预测值输出期望损失;所述温度控制模型基于所述评价参数和所述期望损失,通过梯度下降方法更新所述策略网络的权重,以使所述状态参数在每一周期结束时的实际值趋近所述的目标值,并使所述状态参数在每一周期结束时的预测值趋近所述的实际值。2.如权利要求1所述的一种基于深度强化学习的反应温度控制方法,其特征是,所述状态参数包括所述反应溶液的平均温度与所述介质的平均温度的差、所述反应容器的侧部内壁温度和底部内壁温度的差和所述反应溶液的平均浓度;所述状态参数达到预设的目标值指所述反应溶液的平均温度和所述介质的平均温度的差低于第一阈值、所述反应容器的侧部内壁温度和底部内壁温度的差低于第二阈值和所述反应溶液的平均浓度达到符合要求的浓度值。3.如权利要求2所述的一种基于深度强化学习的反应温度控制方法,其特征是,所述第一阈值为0.01℃;所述第二阈值为0.01℃。4.如权利要求1所述的一种基于深度强化学习的反应温度控...

【专利技术属性】
技术研发人员:周宇
申请(专利权)人:厦门宇昊软件有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1