The invention provides a hybrid expert reinforcement learning method and system, which utilizes multi-head agents with shared network parameters as multiple experts and trains the agent through deep deterministic strategy gradient algorithm to simultaneously learn a series of similar tasks. Each expert is introduced to estimate the uncertainties of state execution actions to enhance the ability of anti-over-fitting Q-value evaluation and the overall performance of the model. These enable agents to extract, migrate and share the learned knowledge (feature expression) in different tasks, thus improving the learning efficiency of single task and the effectiveness of scheduling experts among multiple tasks. Different from the traditional data-driven design of hybrid expert system, it uses self-supervised gating network to determine the most potential experts to deal with each interaction of unknown tasks, and can calibrate the accuracy of scheduling completely through the uncertainty estimation of expert system feedback in the absence of human external supervisory information.
【技术实现步骤摘要】
一种混合专家强化学习方法及系统
本专利技术涉及计算机数据处理
,尤其涉及一种混合专家强化学习方法及系统。
技术介绍
学习不同领域中的相关任务,并将训练得到的知识转移到新的环境中,是强化学习的一个重大挑战。然而,大多数强化学习方法数据利用效率低下,训练速度慢,无法在复杂环境中推广,这同时限制了它们在多任务场景下的适应性和适用性。混合专家系统(Mixture-of-Experts,MoE)是一种有效的集成学习方法,使用一个门控网络来使子模型专家化,以此减轻单个模型容易过拟合的问题,并提高复杂任务下的性能;但一般的混合专家系统中专家调度和利用的均衡性和有效性都很差。
技术实现思路
为解决上述问题,本专利技术提出一种合专家强化学习方法及系统,其数据利用效率高,训练速度快,可以在复杂环境中推广、泛化能力高。本专利技术提出一种混合专家强化学习方法,其特征在于,包括:S0.随机初始化具有多个头的执行者网络和评判家网络,并将权重参数复制到各自的目标网络,初始化经验回放池,门控网络,以及多任务环境;S1.智能体从环境中接收状态st,智能体中的门控网络根据状态st输出调度向量G(s ...
【技术保护点】
1.一种混合专家强化学习方法,其特征在于,包括:S0.随机初始化具有多个头的执行者网络和评判家网络,并将权重参数复制到各自的目标网络,初始化经验回放池,门控网络,以及多任务环境;S1.智能体从环境中接收状态st,智能体中的门控网络根据状态st输出调度向量G(st);同时,多个执行者根据状态st产生候选动作向量集,与所述多个执行者一一对应的多个评判家根据所述候选动作向量集生成多组Q值和Q方差对;S2.转换器根据所述多个Q方差,得到目标调度向量g′(st);同时,专家选择器根据g′(st),选择产生高Q值和低Q方差对的执行者作为强化学习的专家,产生动作at与环境进行交互;S3. ...
【技术特征摘要】
1.一种混合专家强化学习方法,其特征在于,包括:S0.随机初始化具有多个头的执行者网络和评判家网络,并将权重参数复制到各自的目标网络,初始化经验回放池,门控网络,以及多任务环境;S1.智能体从环境中接收状态st,智能体中的门控网络根据状态st输出调度向量G(st);同时,多个执行者根据状态st产生候选动作向量集,与所述多个执行者一一对应的多个评判家根据所述候选动作向量集生成多组Q值和Q方差对;S2.转换器根据所述多个Q方差,得到目标调度向量g′(st);同时,专家选择器根据g′(st),选择产生高Q值和低Q方差对的执行者作为强化学习的专家,产生动作at与环境进行交互;S3.智能体接收环境根据所述动作at所产生的奖励rt与下一个状态st+1;经验回放池存储该经验元组(st,at,st+1,rt,mt);其中,mt=g′(st),表示该经验元组被特定专家训练的概率;S4.随机选择一对执行者和评判家,随机采样多个经验元组作为批量训练数据,并更新这对执行者和评判家、及其相应的目标网络,以及门控网络;S5.重复步骤S1-S4,直至达到设置的迭代次数。2.如权利要求1所述的混合专家强化学习方法,其特征在于,步骤S2中根据如下公式产生目标调度向量g′(st):g′(st)=softmax(H(st));所述H(st)为一个独热编码向量,具有K维,其中第k维的值定义如下:其中,函数KeepTopX(σ2,x)表示只保留σ2的前x个值,而σ2是对状态st的不确定性估计值,同样有K维,表示第k个值;H(st)表示为“当对状态st的第k个不确定性估计处于前x个时,H(st)的第k维值为1,否则为0”。3.如权利要求1所述的混合专家强化学习方法,其特征在于,所述步骤S2中根据如下公式产生动作at:其中k表示第k个专家,g′(st)为目标调度向量,是个K维向量,argmax指的是取g′(st)最大的数值对应的下标k,并从动作候选集中选择对应的第k个动作作为输出。4.如权利要求1所述的混合专家强化学习方法,其特征在于,所述步骤S4中通过最小化负对...
【专利技术属性】
技术研发人员:袁春,郑卓彬,朱新瑞,
申请(专利权)人:清华大学深圳研究生院,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。