【技术实现步骤摘要】
强化学习模型训练方法、决策方法、装置、设备及介质
[0001]本公开涉及计算机
,尤其涉及深度学习、强化学习等人工智能技术,进一步涉及一种强化学习模型训练方法、决策方法、装置、设备及介质。
技术介绍
[0002]强化学习是一种通过经验进行策略自主学习的数学框架,是机器学习的范式和方法论之一,属于人工智能技术的一种技术分支,用于描述和解决智能体(agent)在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。强化学习是一种不需要先验知识、数据的无监督学习方法,其主要工作模式为策略模型在环境中不断做出动作(action)尝试,通过接收环境对动作的回报获得学习信息并更新模型参数,最终实现模型收敛。
技术实现思路
[0003]本公开实施例提供了一种强化学习模型训练方法、决策方法、装置、设备及介质,能够提高强化学习模型的训练效率、适应能力和模型的准确率,进而提高基于强化学习模型进行决策的准确率。
[0004]第一方面,本公开实施例提供了一种强化学习模型训练方法,包括:
[0005]获取根据第一场景进行强化学习训练得到的第一智能体的第一智能体参数;
[0006]根据所述第一智能体参数确定第二场景中目标强化学习模型的第二智能体的第二智能体参数;
[0007]根据所述第二智能体参数在所述第二场景中训练辅助学习网络;
[0008]根据训练得到的目标辅助学习网络对所述目标强化学习模型进行训练。
[0009]第二方面,本公开实施例提供了一种决策方法,包 ...
【技术保护点】
【技术特征摘要】
1.一种强化学习模型训练方法,包括:获取根据第一场景进行强化学习训练得到的第一智能体的第一智能体参数;根据所述第一智能体参数确定第二场景中目标强化学习模型的第二智能体的第二智能体参数;根据所述第二智能体参数在所述第二场景中训练辅助学习网络;根据训练得到的目标辅助学习网络对所述目标强化学习模型进行训练。2.根据权利要求1所述的方法,其中,所述第一智能体参数包括所述第一智能体的控制策略参数;所述根据所述第一智能体参数确定第二场景中目标强化学习模型的第二智能体的第二智能体参数,包括:根据所述第一智能体参数初始化所述第二智能体参数;确定所述第二智能体参数中的目标第二智能体子参数;冻结所述目标第二智能体子参数。3.根据权利要求1所述的方法,其中,所述根据所述第二智能体参数在所述第二场景中训练辅助学习网络,包括:根据所述第二智能体参数初始化所述辅助学习网络的网络参数;在所述第二场景中通过局部贪婪策略采集局部样本数据;根据所述局部样本数据对网络参数初始化后的辅助学习网络进行训练。4.根据权利要求1所述的方法,所述根据所述第二智能体参数在所述第二场景中训练辅助学习网络,包括:在所述第二场景中通过局部贪婪策略采集局部样本数据;获取目标修正样本数据;确定所述局部样本数据和所述目标修正样本数据的样本数据权重;根据所述局部样本数据、所述目标修正样本数据以及所述样本数据权重对所述辅助学习网络进行训练。5.根据权利要求1所述的方法,其中,所述根据训练得到的目标辅助学习网络对所述目标强化学习模型进行训练,包括:根据所述训练得到的目标辅助学习网络的网络参数初始化所述目标强化学习模型中的模型参数;在所述第二场景中训练所述目标强化学习模型。6.根据权利要求5所述的方法,其中,所述目标强化学习模型中的模型参数包括控制策略参数;所述根据所述训练得到的目标辅助学习网络的网络参数初始化所述目标强化学习模型中的模型参数,包括:根据所述训练得到的目标辅助学习网络的网络参数初始化所述目标强化学习模型中的控制策略参数;和/或所述目标强化学习模型中的模型参数包括评估策略参数,所述方法还包括:根据预设配置参数初始化所述目标强化学习模型中的评估策略参数。7.根据权利要求5或6所述的方法,其中,所述在所述第二场景中训练所述目标强化学
习模型,包括:获取所述目标强化学习模型中第二智能体在当前训练轮次的训练结果数据;根据目标干预数据对所述训练结果数据进行数据筛选,得到目标训练结果数据;根据干预判别器对所述目标训练结果数据进行分类,得到干预结果数据;根据所述目标训练结果数据和所述干预结果数据训练所述目标强化学习模型。8.根据权利要求7所述的方法,其中,所述根据所述目标训练结果数据和所述干预结果数据训练所述目标强化学习模型,包括:根据初始损失函数和所述干预结果数据确定目标损失函数;将所述目标训练结果数据和所述干预结果数据作为所述目标强化学习模型中第二智能体的智能体输入数据,并将所述智能体输入数据输入至所述第二智能体中,得到所述第二智能体的智能体输出数据;根据所述目标损失函数、所述智能体输入数据和所述智能体输出数据更新所述第二智能体的智能体参数。9.根据权利要求8所述的方法,其中,所述根据初始损失函数和所述干预结果数据确定目标损失函数,包括:基于如下公式确定所述目标损失函数:L
total
=0.5*L
actor
+0.5*L
critic
+α(t)*DN(s,action)其中,L
total
表示所述目标损失函数,L
actor
表示控制策略模型的损失函数,L
critic
表示评估策略模型的损失函数,α(t)表示惩罚项,DN(s,action)表示干预判别器的输出,α(t)*DN(s,action)表示所述干预结果数据,epochs2表示目标强化学习模型的训练总迭代次数,t表示当前的迭代轮数,C表示常数项。10.一种决策方法,包括:获取目标场景的状态数据;将所述状态数据输入至目标强化学习模型,得到针对所述目标场景的决策数据;其中,所述目标强化学习模型通过权利要求1
‑
9任一所述的强化学习模型训练方法训练得到。11.一种强化学习模型训练装置,包括:第一智能体参数获取模块,用于获取根据第一场景进行强化学习训练得到的第一智能体的第一智能体参数;第二智能体参数确定模块,用于根据所述第一智能体参数确定第二场景中目标强化学习模型的第二智能体的第二智能体参数;辅助学习网络训练模块,用于根据所述第二智能体参数在所述第二场景中训练辅助学习网络;目标...
【专利技术属性】
技术研发人员:刘建林,解鑫,袁晓敏,许铭,刘颖,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。