当前位置: 首页 > 专利查询>重庆大学专利>正文

一种基于深度强化学习的白酒勾兑过程优化方法技术

技术编号:38152292 阅读:9 留言:0更新日期:2023-07-13 09:17
本发明专利技术涉及一种基于深度强化学习的白酒勾兑过程优化方法,属于智能学习领域。本发明专利技术通过深度强化学习算法训练的过程,决策出来的基酒调配比例能够在减小成本误差和微量成分理化指标的同时,尽可能地避免口味上过大的偏差,均衡口味。而现有技术大部分是考虑的全局最优,如多目标规划模型中将成本偏差和理化指标偏差都看作需要减少的误差项,在多个等式约束和不等式约束下,可能存在某些指标偏差过大,但从全局的角度来看是最优的情况。但从全局的角度来看是最优的情况。但从全局的角度来看是最优的情况。

【技术实现步骤摘要】
一种基于深度强化学习的白酒勾兑过程优化方法


[0001]本专利技术属于智能学习领域,涉及一种基于深度强化学习的白酒勾兑过程优化方法。

技术介绍

[0002]白酒的口味受多种因素影响,如酿造时间、温度、湿度、原材料比例,勾兑比例等。白酒的勾兑是决定白酒最终品质的关键环节,通过基酒与调味酒按照不同配比方式的混合成成品酒的过程。在传统的生产方式中通常采用人工品尝的方式来确定基酒混合的比例,由于人的感官评价差距较大,容易出现误差,白酒勾兑的过程极易出现质量参差不齐,基酒在勾兑过程中存在大量浪费的情况。
[0003]结合计算机,可以更好地量化白酒的勾兑过程。白酒的风味与品质可以用理化指标来描述,即各类微量元素的含量。勾兑的实质是将具有不同理化指标的基酒混合以达到成品酒所需求的理化指标,计算机勾兑技术则是计算出满足成品酒理化指标的勾兑比例的过程。受酿造时间、温度、湿度、原料的影响,即使是按照同样配方酿造的原样酒的理化指标都有可能存在差距,因此针对原样酒理化指标随时间季节多变的特性,利用深度强化学习的自学习特性,可以用计算机模拟多次确定调配比例的过程,寻找尽可能满足成本指标和微量元素约束的基酒配比,实现不同理化指标的基酒都能训练得到最优的调配比例。
[0004]在现有技术中,经常用常规的数学方法来求解配比,大部分为线性规划方法、目标规划方法等。但这种直接的求解方法容易遇到各种各样的问题。线性规划的求解存在局限性,不同的约束条件相互矛盾很容易导致无解。目标规划将成本误差与理化指标误差引入目标函数,一定程度上解决了线性规划容易因为硬约束陷入局部无解的问题,但算法中需要提前设置权系数,权系数的取值需要依赖历史的勾兑经验,如取值不当,很容易出现在保证了总体误差最优的情况下,局部误差过大,严重影响勾兑出的白酒口味。此外,还有用约束条件的伸缩量放宽限制的模糊线性规划,通过神经网络拟合理化指标与权系数的关系再用目标规划求解的方法等,但这两种方法都依赖于历史较优的勾兑经验来提前确定伸缩量或权系数等,具有一定的局限性,历史数据的好坏直接影响了后续的计算和函数拟合过程。
[0005]强化学习是机器学习中的一大分支,观点来自于动物学习,通过“试错”的方式来学习如何在已有的状态下选择做出最合适的动作。深度强化学习结合了强化学习与深度学习,强调了智能的特点,其中深度学习负责感知部分,强化学习负责控制和决策部分。算法中学习与决策的部分称为智能体,与智能体进行交互的计算单元称为环境。
[0006]在本专利技术中,调配比例的最优用目标函数和奖励函数量化。在深度强化学习的学习过程中智能体以“试错”为前提,在与环境进行交互学习的过程中,智能体通过多次试验学习如何决策实现系统奖励值的最大化,即勾兑后目标函数值低,与预期理化指标差距小。奖励函数用来鼓励好的调配经验,惩罚坏的调配尝试。对应于调配比例的优化过程,由于决策过程有很强的自主学习能力,与人工训练积累经验的过程类似,因为计算机计算的快速性,因此积累经验的过程比人工效率更高,且通过交互训练确定最优调配比例的过程具有
普适性,可以应用在不同成品酒的勾兑过程中。

技术实现思路

[0007]有鉴于此,本专利技术的目的在于提供一种基于深度强化学习的白酒勾兑过程优化方法,利用深度强化学习算法让智能体通过“试错”的方式积累经验学习到正确的决策方式,以达到节约成本,提升效率,实现预期成品酒理化指标的目标。
[0008]为达到上述目的,本专利技术提供如下技术方案:
[0009]1、一种基于深度强化学习的白酒勾兑过程优化方法,其特征在于:该方法包括以下步骤:
[0010]S1:选择预期成品酒种类及参与勾兑的基酒;
[0011]预期成品酒微量元素理化指标从配方数据库中得到,设目标成品酒一共有m种微量成分,m种微量成分对应的理化指标为(γ1,γ2,


m
);参与勾兑的基酒一共有p种,对应的微量成分含量通过采集白酒色谱骨架成分获得或是从建立好的基酒微量成分含量数据库中得到,第i种基酒的微量成分含量为(r
1i
,r
2i
,

,r
mi
),i=1,

,p来表示;
[0012]S2:针对白酒勾兑过程,确定包含成本和理化指标误差的目标函数;
[0013]设置的目标函数如下:
[0014][0015][0016]x
j
≥0,j=1,

,p
[0017]式中,J是目标函数,优化目标即为令函数值最小,x
j
代表第j种基酒的调配比例,c
j
对应第j种基酒或原度酒的价格,c
g
是配方对应的成品酒的期望成本,r
ij
代表第j种基酒对应的第i种微量成分的含量,γ
i
为配方中成品酒对应的微量成分含量;
[0018]S3:更新S1中对应的初始化参数;
[0019]若存在建立基酒理化指标数据库的需求,则将理化指标录入数据库,需要时再进行提取;
[0020]S4:通过深度强化学习算法训练得到最优配比;
[0021]S41:将白酒勾兑过程描述为马尔可夫过程,给出训练中用到的各项参数及奖惩标准;
[0022]在初始状态下,智能体选择动作a,环境对这一动作做出响应更新状态;在这一过程中,环境产生收益即奖励值R,奖励值包含正向奖励和负向惩罚值;
[0023]考虑深度强化学习算法的训练目标为优化基酒比例,使得勾兑出的酒与预期成品酒配方偏差较小;白酒勾兑过程为:
[0024]基酒混合得到勾兑小样,勾兑小样中各种基酒的比例即为初始状态;在初始状态下,算法决策部分选择动作a,即需要增加的基酒的量[Δx1,

,Δx
p
],环境对这一动作做出响应,即计算单元计算增加基酒含量后,得到的新勾兑小样中基酒间的比例关系X与表征误差的参数J;在这一过程中,环境产生收益即奖励值R,奖励值用来衡量策略的好坏;
[0025]通过数学公式量化训练过程,设共有p种基酒,配比为X=[x1,

,x
p
];定义深度强
化学习算法一回合的训练过程为,初始化基酒配比为每一次决策后都存在根据该基酒配比计算出衡量成本和口味差距的偏差参数J
k

[0026][0027]式中,J
k
对应第k个时间步的偏差参数,代表k次决策第j种基酒的调配比例;
[0028]深度强化学习算法决策出的控制动作a
k
为应当增加的基酒含量,定义为:
[0029][0030]单次增加的基酒的比例不超过0.05,即增加的量满足0≤Δx
ip
≤0.05,i=1,

,p,根据控制变量计算得出决策出的新配比为:
[0031][0032]当前状态s
k...

【技术保护点】

【技术特征摘要】
1.一种基于深度强化学习的白酒勾兑过程优化方法,其特征在于:该方法包括以下步骤:S1:选择预期成品酒种类及参与勾兑的基酒;预期成品酒微量元素理化指标从配方数据库中得到,设目标成品酒一共有m种微量成分,m种微量成分对应的理化指标为(γ1,γ2,


m
);参与勾兑的基酒一共有p种,对应的微量成分含量通过采集白酒色谱骨架成分获得或是从建立好的基酒微量成分含量数据库中得到,第i种基酒的微量成分含量为(r
1i
,r
2i
,

,r
mi
),i=1,

,p来表示;S2:针对白酒勾兑过程,确定包含成本和理化指标误差的目标函数;设置的目标函数如下:设置的目标函数如下:x
j
≥0,j=1,

,p式中,J是目标函数,优化目标即为令函数值最小,x
j
代表第j种基酒的调配比例,c
j
对应第j种基酒或原度酒的价格,c
g
是配方对应的成品酒的期望成本,r
ij
代表第j种基酒对应的第i种微量成分的含量,γ
i
为配方中成品酒对应的微量成分含量;S3:更新S1中对应的初始化参数;若存在建立基酒理化指标数据库的需求,则将理化指标录入数据库,需要时再进行提取;S4:通过深度强化学习算法训练得到最优配比;S41:将白酒勾兑过程描述为马尔可夫过程,给出训练中用到的各项参数及奖惩标准;在初始状态下,智能体选择动作a,环境对这一动作做出响应更新状态;在这一过程中,环境产生收益即奖励值R,奖励值包含正向奖励和负向惩罚值;考虑深度强化学习算法的训练目标为优化基酒比例,使得勾兑出的酒与预期成品酒配方偏差较小;白酒勾兑过程为:基酒混合得到勾兑小样,勾兑小样中各种基酒的比例即为初始状态;在初始状态下,算法决策部分选择动作a,即需要增加的基酒的量[Δx1,

,Δx
p
],环境对这一动作做出响应,即计算单元计算增加基酒含量后,得到的新勾兑小样中基酒间的比例关系X与表征误差的参数J;在这一过程中,环境产生收益即奖励值R,奖励值用来衡量策略的好坏;通过数学公式量化训练过程,设共有p种基酒,配比为X=[x1,

,x
p
];定义深度强化学习算法一回合的训练过程为,初始化基酒配比为每一次决策后都存在根据该基酒配比计算出衡量成本和口味差距的偏差参数J
k
:式中,J
k
对应第k个时间步的偏差参数,代表k次决策第j种基酒的调配比例;深度强化学习算法决策出的控制动作a
k
为应当增加的基酒含量,定义为:
单次增加的基酒的比例不超过0.05,即增加的量满足0≤Δx
ip
≤0.05,i=1,

,p,根据控制变量计算得出决策出的新配比为:当前状态s
k
更新为:s
k
=[X
k
,J
k
]第k次状态与上一步的状态与执行的控制变量有关,满足马尔可夫性;结合提出的白酒勾兑过程目标函数,预先设置与目标函数有关的奖励函数R;定义k时刻对应的奖励函数为:式中J
k
为第k次决策中的偏差参数,J
k
‑1为k

1次对应的参数,b,w,d为调整系数,M
i
描述的是口味的偏差程度,取值规则为:S
k
保证一回合能够给优化决策做出正向奖励,取值规则为:S42:结合选用的actor

critic网络结构描述深度强化学习算法DDPG的决策过程;DDPG的actor

critic结构由策略网络和价值网络组成,actor网络是根据当前状态采取最优动作的神经网络,称为策略网络,critic网...

【专利技术属性】
技术研发人员:陈刚蒲嫦莉李泓杰任江洪于同奎唐辉荣饶家全杜泽春
申请(专利权)人:重庆大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1