强化学习模型训练方法、决策方法、装置、设备及介质制造方法及图纸

技术编号:32012310 阅读:24 留言:0更新日期:2022-01-22 18:29
本公开提供了一种强化学习模型训练方法、决策方法、装置、设备及介质,涉及计算机技术领域,进一步涉及深度学习、强化学习等人工智能技术,模型训练方法包括:获取根据第一场景进行强化学习训练得到的第一智能体的第一智能体参数;根据所述第一智能体参数确定第二场景中目标强化学习模型的第二智能体的第二智能体参数;根据所述第二智能体参数在所述第二场景中训练辅助学习网络;根据训练得到的目标辅助学习网络对所述目标强化学习模型进行训练。本公开实施例能够提高强化学习模型的训练效率、适应能力和模型的准确率,进而提高基于强化学习模型进行决策的准确率。化学习模型进行决策的准确率。化学习模型进行决策的准确率。

【技术实现步骤摘要】
强化学习模型训练方法、决策方法、装置、设备及介质


[0001]本公开涉及计算机
,尤其涉及深度学习、强化学习等人工智能技术,进一步涉及一种强化学习模型训练方法、决策方法、装置、设备及介质。

技术介绍

[0002]强化学习是一种通过经验进行策略自主学习的数学框架,是机器学习的范式和方法论之一,属于人工智能技术的一种技术分支,用于描述和解决智能体(agent)在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。强化学习是一种不需要先验知识、数据的无监督学习方法,其主要工作模式为策略模型在环境中不断做出动作(action)尝试,通过接收环境对动作的回报获得学习信息并更新模型参数,最终实现模型收敛。

技术实现思路

[0003]本公开实施例提供了一种强化学习模型训练方法、决策方法、装置、设备及介质,能够提高强化学习模型的训练效率、适应能力和模型的准确率,进而提高基于强化学习模型进行决策的准确率。
[0004]第一方面,本公开实施例提供了一种强化学习模型训练方法,包括:
[0005]获取根据第一场景进行强化学习训练得到的第一智能体的第一智能体参数;
[0006]根据所述第一智能体参数确定第二场景中目标强化学习模型的第二智能体的第二智能体参数;
[0007]根据所述第二智能体参数在所述第二场景中训练辅助学习网络;
[0008]根据训练得到的目标辅助学习网络对所述目标强化学习模型进行训练。
[0009]第二方面,本公开实施例提供了一种决策方法,包括:
[0010]获取目标场景的状态数据;
[0011]将所述状态数据输入至目标强化学习模型,得到针对所述目标场景的决策数据;
[0012]其中,所述目标强化学习模型通过第一方面所述的强化学习模型训练方法训练得到。
[0013]第三方面,本公开实施例提供了一种强化学习模型训练装置,包括:
[0014]第一智能体参数获取模块,用于获取根据第一场景进行强化学习训练得到的第一智能体的第一智能体参数;
[0015]第二智能体参数确定模块,用于根据所述第一智能体参数确定第二场景中目标强化学习模型的第二智能体的第二智能体参数;
[0016]辅助学习网络训练模块,用于根据所述第二智能体参数在所述第二场景中训练辅助学习网络;
[0017]目标强化学习模型训练模块,用于根据训练得到的目标辅助学习网络对所述目标强化学习模型进行训练。
[0018]第四方面,本公开实施例提供了一种决策装置,包括:
[0019]状态数据获取模块,用于获取目标场景的状态数据;
[0020]决策数据获取模块,用于将所述状态数据输入至目标强化学习模型,得到针对所述目标场景的决策数据;
[0021]其中,所述目标强化学习模型通过第三方面所述的强化学习模型训练装置训练得到。
[0022]第五方面,本公开实施例提供了一种电子设备,包括:
[0023]至少一个处理器;以及
[0024]与所述至少一个处理器通信连接的存储器;其中,
[0025]所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行第一方面实施例所提供的强化学习模型训练方法或第二方面实施例所提供的决策方法。
[0026]第六方面,本公开实施例还提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行第一方面实施例所提供的强化学习模型训练方法或第二方面实施例所提供的决策方法。
[0027]第七方面,本公开实施例还提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现第一方面实施例所提供的强化学习模型训练方法或第二方面实施例所提供的决策方法。
[0028]本公开实施例通过根据第一场景进行强化学习训练得到的第一智能体的第一智能体参数确定第二场景中目标强化学习模型的第二智能体的第二智能体参数,从而根据第二智能体参数在第二场景中训练辅助学习网络,以根据训练得到的目标辅助学习网络对目标强化学习模型进行训练。目标强化学习模型训练完成后,可将目标场景的状态数据输入至目标强化学习模型,得到针对目标场景的决策数据,解决现有强化学习模型训练方法存在的模型的训练效率、适应能力以及准确率较低等问题,能够提高强化学习模型的训练效率、适应能力和模型的准确率,进而提高基于强化学习模型进行决策的准确率。
[0029]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0030]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0031]图1是本公开实施例提供的一种强化学习模型训练方法的流程图;
[0032]图2是本公开实施例提供的一种强化学习模型训练方法的流程图;
[0033]图3是本公开实施例提供的一种决策方法的流程图;
[0034]图4是本公开实施例提供的一种强化学习模型训练装置的结构图;
[0035]图5是本公开实施例提供的一种决策装置的结构图;
[0036]图6是用来实现本公开实施例的强化学习模型训练方法或决策方法的电子设备的结构示意图。
具体实施方式
[0037]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0038]传统强化学习存在解空间庞大、训练收敛困难、输出不稳定的问题,导致目前强化学习只能在简单场景、计算需求低以及试错成本低的场景下应用,对于复杂场景(如智能体数量多、环境信息维度过高或执行动作数量多等场景类型),强化学习还很难应用。强化学习的训练过程依靠相对稳定的环境,当环境信息变更时,先前环境中训练的强化学习智能体往往很难适应新的环境,因此已有的强化学习模型针对新的环境很难做出合理、正确的决策。
[0039]具体的,在简单场景下训练出来的强化学习智能体无法直接应对复杂场景。而直接利用复杂场景进行强化学习智能体训练又极难收敛,且训练出的强化学习智能体对于变化的环境难以适应。对于复杂环境中的强化学习智能体训练往往采用与传统强化学习相同的训练方法,通过不断增加算力和训练时间来追求训练收敛。当环境变化时,往往需要重新开始训练,训练成本高,训练效率较低。
[0040]在一个示例中,图1是本公开实施例提供的一种强化学习模型训练方法的流程图,本实施例可适用于利用辅助学习网络高效训练强化学习模型情况,该方法可以由强化学习模型训练装置来执行,该装置可以由软件和/或硬件的方式来实现,并一般可集成在电子设备中。该电子设备可以是终端设备,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种强化学习模型训练方法,包括:获取根据第一场景进行强化学习训练得到的第一智能体的第一智能体参数;根据所述第一智能体参数确定第二场景中目标强化学习模型的第二智能体的第二智能体参数;根据所述第二智能体参数在所述第二场景中训练辅助学习网络;根据训练得到的目标辅助学习网络对所述目标强化学习模型进行训练。2.根据权利要求1所述的方法,其中,所述第一智能体参数包括所述第一智能体的控制策略参数;所述根据所述第一智能体参数确定第二场景中目标强化学习模型的第二智能体的第二智能体参数,包括:根据所述第一智能体参数初始化所述第二智能体参数;确定所述第二智能体参数中的目标第二智能体子参数;冻结所述目标第二智能体子参数。3.根据权利要求1所述的方法,其中,所述根据所述第二智能体参数在所述第二场景中训练辅助学习网络,包括:根据所述第二智能体参数初始化所述辅助学习网络的网络参数;在所述第二场景中通过局部贪婪策略采集局部样本数据;根据所述局部样本数据对网络参数初始化后的辅助学习网络进行训练。4.根据权利要求1所述的方法,所述根据所述第二智能体参数在所述第二场景中训练辅助学习网络,包括:在所述第二场景中通过局部贪婪策略采集局部样本数据;获取目标修正样本数据;确定所述局部样本数据和所述目标修正样本数据的样本数据权重;根据所述局部样本数据、所述目标修正样本数据以及所述样本数据权重对所述辅助学习网络进行训练。5.根据权利要求1所述的方法,其中,所述根据训练得到的目标辅助学习网络对所述目标强化学习模型进行训练,包括:根据所述训练得到的目标辅助学习网络的网络参数初始化所述目标强化学习模型中的模型参数;在所述第二场景中训练所述目标强化学习模型。6.根据权利要求5所述的方法,其中,所述目标强化学习模型中的模型参数包括控制策略参数;所述根据所述训练得到的目标辅助学习网络的网络参数初始化所述目标强化学习模型中的模型参数,包括:根据所述训练得到的目标辅助学习网络的网络参数初始化所述目标强化学习模型中的控制策略参数;和/或所述目标强化学习模型中的模型参数包括评估策略参数,所述方法还包括:根据预设配置参数初始化所述目标强化学习模型中的评估策略参数。7.根据权利要求5或6所述的方法,其中,所述在所述第二场景中训练所述目标强化学
习模型,包括:获取所述目标强化学习模型中第二智能体在当前训练轮次的训练结果数据;根据目标干预数据对所述训练结果数据进行数据筛选,得到目标训练结果数据;根据干预判别器对所述目标训练结果数据进行分类,得到干预结果数据;根据所述目标训练结果数据和所述干预结果数据训练所述目标强化学习模型。8.根据权利要求7所述的方法,其中,所述根据所述目标训练结果数据和所述干预结果数据训练所述目标强化学习模型,包括:根据初始损失函数和所述干预结果数据确定目标损失函数;将所述目标训练结果数据和所述干预结果数据作为所述目标强化学习模型中第二智能体的智能体输入数据,并将所述智能体输入数据输入至所述第二智能体中,得到所述第二智能体的智能体输出数据;根据所述目标损失函数、所述智能体输入数据和所述智能体输出数据更新所述第二智能体的智能体参数。9.根据权利要求8所述的方法,其中,所述根据初始损失函数和所述干预结果数据确定目标损失函数,包括:基于如下公式确定所述目标损失函数:L
total
=0.5*L
actor
+0.5*L
critic
+α(t)*DN(s,action)其中,L
total
表示所述目标损失函数,L
actor
表示控制策略模型的损失函数,L
critic
表示评估策略模型的损失函数,α(t)表示惩罚项,DN(s,action)表示干预判别器的输出,α(t)*DN(s,action)表示所述干预结果数据,epochs2表示目标强化学习模型的训练总迭代次数,t表示当前的迭代轮数,C表示常数项。10.一种决策方法,包括:获取目标场景的状态数据;将所述状态数据输入至目标强化学习模型,得到针对所述目标场景的决策数据;其中,所述目标强化学习模型通过权利要求1

9任一所述的强化学习模型训练方法训练得到。11.一种强化学习模型训练装置,包括:第一智能体参数获取模块,用于获取根据第一场景进行强化学习训练得到的第一智能体的第一智能体参数;第二智能体参数确定模块,用于根据所述第一智能体参数确定第二场景中目标强化学习模型的第二智能体的第二智能体参数;辅助学习网络训练模块,用于根据所述第二智能体参数在所述第二场景中训练辅助学习网络;目标...

【专利技术属性】
技术研发人员:刘建林解鑫袁晓敏许铭刘颖
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1