决策生成模型训练方法、决策生成方法及装置制造方法及图纸

技术编号:31082707 阅读:13 留言:0更新日期:2021-12-01 12:29
本申请公开了一种决策生成模型训练方法、决策生成方法及装置,获取当前时刻的农业生产学习数据,将其置于回放缓冲区,记录模型训练步数加一。从回放缓冲区中获取预设数量组历史数据,根据预设数量组历史数据计算对应的目标价值。根据预设数量组历史数据对应的目标价值,获取评价网络对应的损失函数。基于损失函数,更新评价网络参数。根据预设数量组历史数据,获取策略网络对应的目标函数。根据目标函数,更新策略网络参数。由更新后的评价网络参数和策略网络参数,获取更新后的目标评价网络参数和目标策略网络参数。达到预设条件时停止训练。该决策生成模型能够适应实时变动的智慧农业生产环境,生成精准的农业生产决策。生成精准的农业生产决策。生成精准的农业生产决策。

【技术实现步骤摘要】
决策生成模型训练方法、决策生成方法及装置


[0001]本申请涉及智慧农业
,尤其涉及决策生成模型训练方法、决策生成方法及装置。

技术介绍

[0002]在智慧农业阶段,利用传感器装置对农业生产中的各种参数,基于获取的各种参数来做出决策,实现农业智慧控制和生产等。例如,灌溉水量方面的决策、播种量密度方面的决策、农药喷洒量方面的决策、施肥量方面的决策等。
[0003]目前,有关智慧农业生产的现有技术中,多采用监督学习方法,针对大量农业生产数据进行模型训练。面对播种、灌溉等具体场景,借助训练好的模型生成决策。但是,此类方法需要借助大量已有的农业生产数据样本训练模型,造成数据采集和模型训练成本大。同时,基于已有数据样本训练出的模型可能难以适应实时变动的农业生产场景,做出的决策并不合适。

技术实现思路

[0004]为了解决上述技术问题,本申请提供了一种决策生成模型训练方法、决策生成方法及装置,能够适应实时变动的农业生产场景,做出更加精准符合实际需要的决策。
[0005]为了实现上述目的,本申请实施例提供的技术方案如下:
[0006]本申请实施例提供一种决策生成模型训练方法,所述模型包括策略网络、评价网络、目标策略网络和目标评价网络,所述方法包括:
[0007]获取当前时刻的农业生产学习数据,将所述当前时刻的农业生产学习数据放置于回放缓冲区,并记录模型训练步数加一;所述当前时刻的农业生产学习数据包括所述当前时刻的农业生产状态数据、所述当前时刻的农业生产决策、所述当前时刻的奖励值和所述下一时刻的农业生产状态数据;
[0008]从所述回放缓冲区中获取预设数量组历史数据,并根据所述预设数量组历史数据计算所述预设数量组历史数据对应的目标价值;所述历史数据包括第一时刻的农业生产状态数据、所述第一时刻的农业生产决策、所述第一时刻的奖励值和第二时刻的农业生产状态数据;
[0009]根据所述预设数量组历史数据对应的目标价值,获取所述评价网络对应的损失函数;
[0010]基于所述损失函数,更新评价网络参数,获取更新后的所述评价网络参数;
[0011]根据所述预设数量组历史数据,获取所述策略网络对应的目标函数;
[0012]根据所述目标函数,更新策略网络参数,获取更新后的所述策略网络参数;
[0013]根据所述更新后的评价网络参数、所述更新后的策略网络参数更新目标评价网络参数和目标策略网络参数,获取更新后的所述目标评价网络参数和更新后的所述目标策略网络参数;
[0014]重新执行所述获取当前时刻的农业生产学习数据以及后续步骤,直至达到预设条件,获取训练完成的所述决策生成模型;所述预设条件为达到预设模型训练步数或者达到农作物状况量化值超出预设范围。
[0015]可选地,所述获取当前时刻的农业生产学习数据,包括:
[0016]获取当前时刻的农业生产状态数据;所述农业生产状态数据至少包括环境状态数据和农机参数数据;
[0017]将所述农业生产状态数据输入所述策略网络,获取所述策略网络输出的所述当前时刻的农业生产决策;
[0018]执行所述农业生产决策,计算所述农业生产决策下的所述当前时刻的奖励值;所述奖励值为所述农作物的生长状况量化值;
[0019]基于所述农业生产决策,获取下一时刻的所述农业生产状态数据;
[0020]基于所述当前时刻的农业生产状态数据、所述当前时刻的农业生产决策、所述当前时刻的奖励值和所述下一时刻的农业生产状态数据,生成当前时刻的农业生产学习数据。
[0021]可选地,从所述回放缓冲区中获取预设数量组历史数据,并根据所述预设数量组历史数据计算所述预设数量组历史数据对应的目标价值,包括:
[0022]从所述回放缓冲区中获取预设数量组历史数据,计算目标历史数据对应的目标价值;所述目标历史数据为所述预设数量组历史数据中的任意一组;
[0023]基于所述目标历史数据对应的目标价值,确定所述预设数量组历史数据对应的目标价值。
[0024]可选地,所述从所述回放缓冲区中获取预设数量组历史数据,计算目标历史数据对应的目标价值,包括:
[0025]从所述回放缓冲区中获取预设数量组历史数据,从所述预设数量组历史数据中确定目标历史数据;
[0026]基于所述目标历史数据,获取所述目标策略网络输出的对象策略和所述目标评价网络输出的对象价值;
[0027]基于所述对象策略、所述对象价值和所述目标历史数据中的奖励值,计算目标历史数据对应的目标价值。
[0028]可选地,所述根据所述预设数量组历史数据对应的目标价值,获取所述评价网络对应的损失函数,包括:
[0029]基于所述预设数量组历史数据,获取所述评价网络输出的预设数量组代价值;
[0030]基于所述预设数量组历史数据对应的目标价值和所述预设数量组所述评价网络输出的代价值,获取所述评价网络对应的损失函数。
[0031]可选地,在所述获取当前时刻的农业生产学习数据之前,所述方法还包括:
[0032]初始化模型参数;所述模型参数包括策略网络参数、评价网络参数、目标策略网络参数和目标评价网络参数。
[0033]可选地,在所述获取当前时刻的农业生产学习数据之前,所述方法还包括:
[0034]设定预设模型训练步数并对所述预设模型训练步数进行初始化。
[0035]本申请实施例还提供了一种决策生成模型训练装置,所述模型包括策略网络、评
价网络、目标策略网络和目标评价网络,所述装置包括:
[0036]第一获取单元,用于获取当前时刻的农业生产学习数据,将其置于回放缓冲区,并记录模型训练步数加一;所述当前时刻的农业生产学习数据包括所述当前时刻的农业生产状态数据、所述当前时刻的农业生产决策、所述当前时刻的奖励值和所述下一时刻的农业生产状态数据;
[0037]计算单元,用于从所述回放缓冲区中获取预设数量组历史数据,并根据所述预设数量组历史数据计算所述预设数量组历史数据对应的目标价值;所述历史数据包括第一时刻的农业生产状态数据、所述第一时刻的农业生产决策、所述第一时刻的奖励值和第二时刻的农业生产状态数据;
[0038]第二获取单元,用于根据所述预设数量组历史数据对应的目标价值,获取所述评价网络对应的损失函数;
[0039]第三获取单元,用于基于所述损失函数,更新评价网络参数,获取更新后的所述评价网络参数;
[0040]第四获取单元,用于根据所述预设数量组历史数据,获取所述策略网络对应的目标函数;
[0041]第五获取单元,用于根据所述目标函数,更新策略网络参数,获取更新后的所述策略网络参数;
[0042]第六获取单元,用于根据所述更新后的评价网络参数、所述更新后的策略网络参数更新目标评价网络参数和目标策略网络参数,获取更新后的所述目标评价网络参数和更新后的所述目标策略网络参数;
[0043]执行单元,用于重新执行所述获取当本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种决策生成模型训练方法,其特征在于,所述模型包括策略网络、评价网络、目标策略网络和目标评价网络,所述方法包括:获取当前时刻的农业生产学习数据,将所述当前时刻的农业生产学习数据放置于回放缓冲区,并记录模型训练步数加一;所述当前时刻的农业生产学习数据包括所述当前时刻的农业生产状态数据、所述当前时刻的农业生产决策、所述当前时刻的奖励值和所述下一时刻的农业生产状态数据;从所述回放缓冲区中获取预设数量组历史数据,并根据所述预设数量组历史数据计算所述预设数量组历史数据对应的目标价值;所述历史数据包括第一时刻的农业生产状态数据、所述第一时刻的农业生产决策、所述第一时刻的奖励值和第二时刻的农业生产状态数据;根据所述预设数量组历史数据对应的目标价值,获取所述评价网络对应的损失函数;基于所述损失函数,更新评价网络参数,获取更新后的所述评价网络参数;根据所述预设数量组历史数据,获取所述策略网络对应的目标函数;根据所述目标函数,更新策略网络参数,获取更新后的所述策略网络参数;根据所述更新后的评价网络参数、所述更新后的策略网络参数更新目标评价网络参数和目标策略网络参数,获取更新后的所述目标评价网络参数和更新后的所述目标策略网络参数;重新执行所述获取当前时刻的农业生产学习数据以及后续步骤,直至达到预设条件,获取训练完成的所述决策生成模型;所述预设条件为达到预设模型训练步数或者达到农作物状况量化值超出预设范围。2.根据权利要求1所述的方法,其特征在于,所述获取当前时刻的农业生产学习数据,包括:获取当前时刻的农业生产状态数据;所述农业生产状态数据至少包括环境状态数据和农机参数数据;将所述农业生产状态数据输入所述策略网络,获取所述策略网络输出的所述当前时刻的农业生产决策;执行所述农业生产决策,计算所述农业生产决策下的所述当前时刻的奖励值;所述奖励值为所述农作物的生长状况量化值;基于所述农业生产决策,获取下一时刻的所述农业生产状态数据;基于所述当前时刻的农业生产状态数据、所述当前时刻的农业生产决策、所述当前时刻的奖励值和所述下一时刻的农业生产状态数据,生成当前时刻的农业生产学习数据。3.根据权利要求1所述的方法,其特征在于,从所述回放缓冲区中获取预设数量组历史数据,并根据所述预设数量组历史数据计算所述预设数量组历史数据对应的目标价值,包括:从所述回放缓冲区中获取预设数量组历史数据,计算目标历史数据对应的目标价值;所述目标历史数据为所述预设数量组历史数据中的任意一组;基于所述目标历史数据对应的目标价值,确定所述预设数量组历史数据对应的目标价值。4.根据权利要求3所述的方法,其特征在于,所述从所述回放缓冲区中获取预设数量组
历史数据,计算目标历史数据对应的目标价值,包括:从所述回放缓冲区中获取预设数量组历史数据,从所述预设数量组历史数据中确定目标历史数据;基于所述目标历史数据,获取所述目标策略网络输出的对象策略和所述目标评价网络输出的对象价值;基于所述对象策略、所述对象价值和所述目标历史数据中的奖励值,计算目标历史数据对应的目标价值。5.根据权利要求1所述的方法,其特征在于,所述根据所述预设数量组历史数据对应的目标价值,获取所述评价网络对应的损失函数,包括:基于所述预设数量组历史数据,获取所述...

【专利技术属性】
技术研发人员:李茹杨赵雅倩李仁刚张亚强魏辉李雪雷
申请(专利权)人:苏州浪潮智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1