一种基于强化学习Q学习的实时整周模糊度快速搜索方法技术

技术编号:24496039 阅读:26 留言:0更新日期:2020-06-13 03:04
本发明专利技术公开了一种基于强化学习Q学习的实时整周模糊度快速搜索方法,属于Q学习技术领域。本发明专利技术的步骤为:步骤1、设定Q学习的学习参数以及奖励矩阵;步骤2、初始化模糊度搜索过程的学习矩阵;步骤3、对于学习矩阵的每一个episode,随机选择一个初始状态;步骤4、如果没有达到目标状态,执行以下几步:1)在当前状态中的所有可能行为中选取一个行为;2)利用选定的行为,得到下一个状态;3)按照转移规则计算Q学习的学习矩阵;4)递推至下一个状态;步骤5、利用训练好的学习矩阵,就可以找出一条从任意状态到达目标状态的行为路径。本发明专利技术操作简单方便,能够实现对实时模糊度的快速搜索。

A real-time integer ambiguity fast search method based on reinforcement learning Q-learning

【技术实现步骤摘要】
一种基于强化学习Q学习的实时整周模糊度快速搜索方法
本专利技术涉及Q学习
,特别涉及一种基于强化学习Q学习的实时整周模糊度快速搜索方法。
技术介绍
随着GNSS服务领域的增加,快速获得高精度定位结果成为现有研究的热点。如何实时快速确定整周模糊度是实时载波相位观测值求解的瓶颈问题。现有的实时模糊度搜索方法多采取将搜索空间降维、采用附件条件约束搜索空间的思路,这些方法依然需要遍历待搜索空间,难以实现快速搜索。专利CN108427131A中提供了一种基线长约束下的整周模糊度快速搜索方法,引入了缩放因子的概念,对当前搜索空间大小进行自适应的缩小和方法,降低了模糊度搜索过程的耗时,在保证成功率的同时提高了搜索效率。专利CN107966718中针对现有SEVB算法在浮点模糊度解精度较差时存在搜索耗时较大问题。
技术实现思路
针对现有技术存在的缺陷与不足,本专利技术提供了一种基于强化学习Q学习的实时整周模糊度快速搜索方法,操作简单方便,能够实现对实时模糊度的快速搜索。为实现上述目的,本专利技术提供如下技术方案:一种基于强化学习Q学习的实时整周模糊度快速搜索方法,包括如下步骤:步骤1、设定Q学习的学习参数以及奖励矩阵;步骤2、初始化模糊度搜索过程的学习矩阵;步骤3、对于学习矩阵的每一个episode,随机选择一个初始状态;步骤4、如果没有达到目标状态,执行以下几步:1)在当前状态中的所有可能行为中选取一个行为;2)利用选定的行为,得到下一个状态;3)按照转移规则计算Q学习的学习矩阵;4)递推至下一个状态;步骤5、利用训练好的学习矩阵,就可以找出一条从任意状态到达目标状态的行为路径:1)选取当前状态为初始状态;2)确定Q学习的行为参数,满足学习矩阵在当前状态参数及行为参数下为最大值;3)将状态值设定为上一步确定的状态;4)重复步骤2和3,即可使得状态成为目标状态,即:模糊度为目标值。与现有技术相比,本专利技术的有益效果是:本专利技术的一种基于强化学习Q学习的实时整周模糊度快速搜索方法,操作简单方便,经过第一次模糊度搜索学习之后,根据搜索空间设定学习参数及reward矩阵之后,利用Q学习实现对搜索空间的学习,最终获取从任意搜索空间位置到达目标值的最优路径,实现实时模糊度的快速搜索。附图说明图1为本专利技术的流程示意图;图2为本专利技术实施例中糊度搜索空间位于2*2*2的立方体图;图3为本专利技术实施例中将2*2*2的立方体按层数展开,并标注各个顶点(也即模糊度备选值)示意图;图4为本专利技术实施例中将状态图和即时奖励填到奖励表中,即矩阵图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。如图1-4所示,本实施例的一种基于强化学习Q学习的实时整周模糊度快速搜索方法,包括如下步骤:步骤1、设定Q学习的学习参数以及奖励矩阵;步骤2、初始化模糊度搜索过程的学习矩阵;步骤3、对于学习矩阵的每一个episode,随机选择一个初始状态;步骤4、如果没有达到目标状态,执行以下几步:1)在当前状态中的所有可能行为中选取一个行为;2)利用选定的行为,得到下一个状态;3)按照转移规则计算Q学习的学习矩阵;4)递推至下一个状态;步骤5、利用训练好的学习矩阵,就可以找出一条从任意状态到达目标状态的行为路径:1)选取当前状态为初始状态;2)确定Q学习的行为参数,满足学习矩阵在当前状态参数及行为参数下为最大值;3)将状态值设定为上一步确定的状态;4)重复步骤2和3,即可使得状态成为目标状态,即:模糊度为目标值。对于上述过程,假定糊度搜索空间位于2*2*2的立方体中,如图2所示。将2*2*2的立方体按层数展开,并标注各个顶点(也即模糊度备选值),如图3所示。假定初值位于0处,目标模糊度位于17点,为每一步移动赋予一个奖励值,设定能够直接到达17点的奖励为100,到达别的点处奖励值为0,不能一步到达的路径赋值为-1。以初值位于0处为例,能从0处到达1、3、6处,奖励值为0,其余点数为-1。将状态图和即时奖励填到奖励表中,即矩阵R,如图4所示。类似地,构建一个矩阵Q,用来表示模糊度搜索过程中已经学到的知识。矩阵Q和矩阵R是同阶的,其行表示状态,列表示行为。在刚开始未进行模糊度搜索时,对三维空间一无所知,因此矩阵Q应初始化为零矩阵。Q-learning算法的转移规则如下式所示:其中,s、a表示当前的状态和行为,表示s的下一个状态及行为,学习参数γ满足0≤γ≤1的常数。本实施例的一种基于强化学习Q学习的实时整周模糊度快速搜索方法,操作简单方便,在初始状态基于Q学习实现对模糊度搜索过程的学习之后,在后续的整周模糊度求解过程中,依赖于Q学习的学习矩阵,能够实现对模糊度搜索时对目标模糊度参数的快速搜索。以上所述,仅为本专利技术较佳的具体实施方式,但本专利技术的保护范围并不局限于此,任何熟悉本
的技术人员在本专利技术揭露的技术范围内,根据本专利技术的技术方案及其专利技术构思加以等同替换或改变,都应涵盖在本专利技术的保护范围之内。本文档来自技高网
...

【技术保护点】
1.一种基于强化学习Q学习的实时整周模糊度快速搜索方法,其特征在于,包括如下步骤:/n步骤1、设定Q学习的学习参数以及奖励矩阵;/n步骤2、初始化模糊度搜索过程的学习矩阵;/n步骤3、对于学习矩阵的每一个episode,随机选择一个初始状态;/n步骤4、如果没有达到目标状态,执行以下几步:/n1)在当前状态中的所有可能行为中选取一个行为;/n2)利用选定的行为,得到下一个状态;/n3)按照转移规则计算Q学习的学习矩阵;/n4)递推至下一个状态;/n步骤5、利用训练好的学习矩阵,就可以找出一条从任意状态到达目标状态的行为路径:/n1)选取当前状态为初始状态;/n2)确定Q学习的行为参数,满足学习矩阵在当前状态参数及行为参数下为最大值;/n3)将状态值设定为上一步确定的状态;/n4)重复步骤2和3,即可使得状态成为目标状态,即:模糊度为目标值。/n

【技术特征摘要】
1.一种基于强化学习Q学习的实时整周模糊度快速搜索方法,其特征在于,包括如下步骤:
步骤1、设定Q学习的学习参数以及奖励矩阵;
步骤2、初始化模糊度搜索过程的学习矩阵;
步骤3、对于学习矩阵的每一个episode,随机选择一个初始状态;
步骤4、如果没有达到目标状态,执行以下几步:
1)在当前状态中的所有可能行为中选取一个行为;
2)利用选定的行为,得到下一个状...

【专利技术属性】
技术研发人员:林楠杨大兵陈刚满贵鑫周晓彬
申请(专利权)人:中国十七冶集团有限公司
类型:发明
国别省市:安徽;34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1