一种基于深度强化学习的白酒勾兑过程优化方法技术

技术编号：38152292 阅读：9 留言：0更新日期：2023-07-13 09:17

本发明专利技术涉及一种基于深度强化学习的白酒勾兑过程优化方法，属于智能学习领域。本发明专利技术通过深度强化学习算法训练的过程，决策出来的基酒调配比例能够在减小成本误差和微量成分理化指标的同时，尽可能地避免口味上过大的偏差，均衡口味。而现有技术大部分是考虑的全局最优，如多目标规划模型中将成本偏差和理化指标偏差都看作需要减少的误差项，在多个等式约束和不等式约束下，可能存在某些指标偏差过大，但从全局的角度来看是最优的情况。但从全局的角度来看是最优的情况。但从全局的角度来看是最优的情况。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于深度强化学习的白酒勾兑过程优化方法

[0001]本专利技术属于智能学习领域，涉及一种基于深度强化学习的白酒勾兑过程优化方法。

技术介绍

[0002]白酒的口味受多种因素影响，如酿造时间、温度、湿度、原材料比例，勾兑比例等。白酒的勾兑是决定白酒最终品质的关键环节，通过基酒与调味酒按照不同配比方式的混合成成品酒的过程。在传统的生产方式中通常采用人工品尝的方式来确定基酒混合的比例，由于人的感官评价差距较大，容易出现误差，白酒勾兑的过程极易出现质量参差不齐，基酒在勾兑过程中存在大量浪费的情况。
[0003]结合计算机，可以更好地量化白酒的勾兑过程。白酒的风味与品质可以用理化指标来描述，即各类微量元素的含量。勾兑的实质是将具有不同理化指标的基酒混合以达到成品酒所需求的理化指标，计算机勾兑技术则是计算出满足成品酒理化指标的勾兑比例的过程。受酿造时间、温度、湿度、原料的影响，即使是按照同样配方酿造的原样酒的理化指标都有可能存在差距，因此针对原样酒理化指标随时间季节多变的特性，利用深度强化学习的自学习特性，可以用计算机模拟多次确定调配比例的过程，寻找尽可能满足成本指标和微量元素约束的基酒配比，实现不同理化指标的基酒都能训练得到最优的调配比例。
[0004]在现有技术中，经常用常规的数学方法来求解配比，大部分为线性规划方法、目标规划方法等。但这种直接的求解方法容易遇到各种各样的问题。线性规划的求解存在局限性，不同的约束条件相互矛盾很容易导致无解。目标规划将成本误差与理化指标误差引入目标函数，一定程度上解决了线性

【技术保护点】

【技术特征摘要】
1.一种基于深度强化学习的白酒勾兑过程优化方法，其特征在于：该方法包括以下步骤：S1：选择预期成品酒种类及参与勾兑的基酒；预期成品酒微量元素理化指标从配方数据库中得到，设目标成品酒一共有m种微量成分，m种微量成分对应的理化指标为(γ1,γ2,
…
,γ
m
)；参与勾兑的基酒一共有p种，对应的微量成分含量通过采集白酒色谱骨架成分获得或是从建立好的基酒微量成分含量数据库中得到，第i种基酒的微量成分含量为(r
1i
,r
2i
,
…
,r
mi
),i＝1,
…
,p来表示；S2：针对白酒勾兑过程，确定包含成本和理化指标误差的目标函数；设置的目标函数如下：设置的目标函数如下：x
j
≥0，j＝1,
…
,p式中，J是目标函数，优化目标即为令函数值最小，x
j
代表第j种基酒的调配比例，c
j
对应第j种基酒或原度酒的价格，c
g
是配方对应的成品酒的期望成本，r
ij
代表第j种基酒对应的第i种微量成分的含量，γ
i
为配方中成品酒对应的微量成分含量；S3：更新S1中对应的初始化参数；若存在建立基酒理化指标数据库的需求，则将理化指标录入数据库，需要时再进行提取；S4：通过深度强化学习算法训练得到最优配比；S41：将白酒勾兑过程描述为马尔可夫过程，给出训练中用到的各项参数及奖惩标准；在初始状态下，智能体选择动作a，环境对这一动作做出响应更新状态；在这一过程中，环境产生收益即奖励值R，奖励值包含正向奖励和负向惩罚值；考虑深度强化学习算法的训练目标为优化基酒比例，使得勾兑出的酒与预期成品酒配方偏差较小；白酒勾兑过程为：基酒混合得到勾兑小样，勾兑小样中各种基酒的比例即为初始状态；在初始状态下，算法决策部分选择动作a，即需要增加的基酒的量[Δx1,
…
,Δx
p
]，环境对这一动作做出响应，即计算单元计算增加基酒含量后，得到的新勾兑小样中基酒间的比例关系X与表征误差的参数J；在这一过程中，环境产生收益即奖励值R，奖励值用来衡量策略的好坏；通过数学公式量化训练过程，设共有p种基酒，配比为X＝[x1,
…
,x
p
]；定义深度强化学习算法一回合的训练过程为，初始化基酒配比为每一次决策后都存在根据该基酒配比计算出衡量成本和口味差距的偏差参数J
k
：式中，J
k
对应第k个时间步的偏差参数，代表k次决策第j种基酒的调配比例；深度强化学习算法决策出的控制动作a
k
为应当增加的基酒含量，定义为：
单次增加的基酒的比例不超过0.05，即增加的量满足0≤Δx
ip
≤0.05，i＝1,
…
,p，根据控制变量计算得出决策出的新配比为：当前状态s
k
更新为：s
k
＝[X
k
,J
k
]第k次状态与上一步的状态与执行的控制变量有关，满足马尔可夫性；结合提出的白酒勾兑过程目标函数，预先设置与目标函数有关的奖励函数R；定义k时刻对应的奖励函数为：式中J
k
为第k次决策中的偏差参数，J
k
‑1为k
‑
1次对应的参数，b,w,d为调整系数，M
i
描述的是口味的偏差程度，取值规则为：S
k
保证一回合能够给优化决策做出正向奖励，取值规则为：S42：结合选用的actor
‑
critic网络结构描述深度强化学习算法DDPG的决策过程；DDPG的actor
‑
critic结构由策略网络和价值网络组成，actor网络是根据当前状态采取最优动作的神经网络，称为策略网络，critic网...

【专利技术属性】
技术研发人员：陈刚，蒲嫦莉，李泓杰，任江洪，于同奎，唐辉荣，饶家全，杜泽春，
申请(专利权)人：重庆大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人