【技术实现步骤摘要】
本专利技术属于智能决策领域,具体涉及一种采用多层分类网络对Q-Learning算法中的Q函数进行自适应学习的实现方法。
技术介绍
Q学习是强化学习技术的一种,是应用最广泛的强化学习技术。Q学习的目标是针对问题空间找到一个Q效用函数(以下简称“Q函数”),将<状态,行动>对映射为特定的效用值(以下简称“Q值”)。一旦获取Q函数,就可以确定任何状态下的最优行动策略,因此这种方法被广泛作为决策问题的一种求解框架。但是,对于具有连续状态空间的决策问题(以下简称“连续问题”),很难做到快速获取Q函数。目前主要方法是采用状态离散化的方式,即将连续状态空间离散化,建立具有查询表结构的Q函数。这种方法的缺点是:只适于处理状态空间维度较低的问题。当问题维度增多时,离散化状态的数量会随着问题维度的增加而指数增加,使得需要的计算机计算机、以及需要的学习时间都变得不可接受。另一种方法为状态效用函数拟合方法。这种方法不追求获得Q函数的精确表示,而是采用某些简单函数进行近似表示。这类方法在一些状态空间连续、高维度的决策问题上得到了应用。但它的问题是:很多拟合函数的具体形式都需要 ...
【技术保护点】
一种基于多层分类网络的Q函数自适应学习方法,包括以下几个步骤:步骤1,多层分类网络训练;多层分类网络是基于模糊自适应共振网络创建,模糊自适应共振网络包括两层,分别为:输入层F1和输出层F2,两层中的节点通过连线连接,每条连线关联一个权重值;该网络的输入通过如下方式处理,对输入的状态矢量s进行归一化,并按照公式(1)的方式建立s的互补矢量sc,合并s和sc得到扩展的输入矢量I:s=(s1,s2,...,sM),sc=(1-s1,1-s2,...,1-sM)I=(s,sc)---(1)]]>其中,M表示输入的维数;输出层F2包含N个分类节点,代表对状态空间的N个分区;建立层次化 ...
【技术特征摘要】
1.一种基于多层分类网络的Q函数自适应学习方法,包括以下几个步骤:步骤1,多层分类网络训练;多层分类网络是基于模糊自适应共振网络创建,模糊自适应共振网络包括两层,分别为:输入层F1和输出层F2,两层中的节点通过连线连接,每条连线关联一个权重值;该网络的输入通过如下方式处理,对输入的状态矢量s进行归一化,并按照公式(1)的方式建立s的互补矢量sc,合并s和sc得到扩展的输入矢量I:s=(s1,s2,...,sM),sc=(1-s1,1-s2,...,1-sM)I=(s,sc)---(1)]]>其中,M表示输入的维数;输出层F2包含N个分类节点,代表对状态空间的N个分区;建立层次化网络时,具体的:1)、确定建立子网络的时机采用Q学习中得到的|ΔQ|值判断是否创建子网络,ΔQ表示Q值的变化量,多层分类网络的每个输出节点均关联一个|ΔQ|值,每当任何一个输出节点更新时,都检查该值并通过一个全局计数器u,统计自从上一个最小|ΔQ|值出现后该节点的更新次数,当u超过阈值p时,择对当前输出节点创建子网络;2)、确定需要建立子网络的输出节点,具体的:(1)建立一个初始的模糊自适应共振网络CNet,从该网络开始,逐渐建立多层分类网络,该初始网络中每个分类节点关联两个变量:该节点的Q值、以及Q值变化量|ΔQ|,Q表示在特定状态s下执行某个动作的价值。建立一个全局计数器u,初始值设置为0;(2)将一个状态采样s输入,得到其对应的分类节点c。c代表了模糊自适应共振网络CNet对s的分类。(3)Q学习模块...
【专利技术属性】
技术研发人员:马耀飞,周亚楠,龚光红,宋晓,吴雨林,翟刚,
申请(专利权)人:北京航空航天大学,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。