一种动态随机环境的路径规划方法和装置制造方法及图纸

技术编号:20361918 阅读:20 留言:0更新日期:2019-02-16 16:06
本发明专利技术实施例提供一种动态随机环境的路径规划方法和装置,涉及计算机信息处理领域,能够在动态随机环境下找到最优路径。该方法包括:定义特征向量空间,将初始节点的状态值赋予初始中间量,根据该初始中间量,获取初始节点的运行动作、前进节点的状态值和运行动作,同时依据基于CMAC的递归最小二乘Q强化学习算法,对中间参数进行更新;然后将前进节点的状态值赋予初始中间量后重复上述流程,直至初始中间量和终止节点的状态值相同时,重复上述从初始节点的状态值赋予初始中间量开始的流程;依据递归最小二乘解公式计算权值行向量的确定值,以获取目标特征向量空间,根据目标特征向量空间和权利向量的确定值获取最终Q值表,以得到最优路径。

【技术实现步骤摘要】
一种动态随机环境的路径规划方法和装置
本专利技术涉及计算机信息处理领域,尤其涉及一种路径随机环境的路径规划方法和装置。
技术介绍
障碍物避障是路径寻优中必不可缺的一环,可以说在动态随机环境中的路径寻优就是在避开障碍物的前提下,找到从初始点到目标点的最短路径。现有寻路算法中的广度优先搜索算法、蚁群算法、遗传算法以及A*算法等路径寻优算法,需要知道环境模型的具体信息,也就是说对环境模型以及路径搜索空间的精度要求很高。但是大型角色类游戏场景中随机出现的其他玩家、怪物以及固有的山、水、森林等障碍物,使得环境模型和路径搜索空间是动态的,是随机的。因此一定程度上来说,对于路径寻优中的障碍物避障问题,传统的路径寻优算法是不适用的。强化学习属于搜索算法,可以在状态和环境未知的情况下,遍历所有路径,根据给定的赏金函数求得每一条路径的目标函数的值,从中选取目标函数值最大的路径,结合神经网络可以实现动态随机环场景下的避障和路径寻优目的。但是由于全局逼近神经网络通常训练速度较慢,在大型的游戏场景中其所需的计算资源(内存等)和代价(时间等)是不符合用户体验要求的。因此通常采取局部逼近神经网络,而局部逼近最主要的潜在限制就是随着输入空间维度的增加所需要的特征单元是以指数形式增加的,并且局部逼近无法实现全局最优路径的规划。
技术实现思路
本专利技术的实施例提供一种动态随机环境的路径规划方法和装置,用于在节省计算资源的基础上,对动态随机环境中两个节点之间的最优路径搜索。为达到上述目的,本专利技术的实施例采用如下技术方案:第一方面,提供一种动态随机环境的路径规划方法,包括:获取资格迹的初始值、构造列向量的初始值、构造矩阵的初始值、初始节点的状态值和终止节点的状态值;初始节点的状态值包括初始节点的空间坐标,终止节点的状态值包括终止节点的空间坐标;根据小脑神经网络CMAC隐含层的权值行向量的初始值和CMAC的激活函数,构建动态随机环境的特征向量空间;将初始节点的状态值赋予初始中间量;根据初始中间量,获取初始节点的运行动作、前进节点的状态值和前进节点的运行动作;根据初始中间量、资格迹的初始值、特征向量空间、构造列向量的初始值、构造矩阵的初始值、初始节点的运行动作、前进节点的状态值和前进节点的运行动作,依据基于CMAC的递归最小二乘Q强化学习算法,对资格迹的初始值、构造列向量的初始值和构造矩阵的初始值均进行更新;将前进节点的状态值赋予初始中间量后,根据初始中间量,获取初始节点的运行动作、前进节点的状态值和前进节点的运行动作;初始节点的运行动作与前进节点的状态值一一对应;当确定初始中间量和终止节点的状态值相同时,将初始节点的状态值赋予初始中间量后,根据初始中间量,获取初始节点的运行动作、前进节点的状态值和前进节点的运行动作;当确定所有初始中间量中存在预设个数个初始中间量与终止节点的状态值相同时,根据当前时刻的构造矩阵的初始值和当前时刻的构造列向量的初始值,依据递归最小二乘解公式计算权值行向量的确定值;根据权值行向量的确定值对特征向量空间进行更新,以获取目标特征向量空间;根据权值行向量的确定值、目标特征向量空间,依据预设Q值计算公式计算最终Q值表;根据最终Q值表确定动态随机环境中初始节点和终止节点之间的最优路径。上述实施例提供技术方案,首先通过CMAC的权值行向量初始值和激活函数对整个动态随机环境的空间进行了定义,得到特征向量空间,将初始节点的状态值赋予一个中间值即初始中间量,根据该初始中间量,获取初始节点的运行动作、初始节点的下一节点前进节点的状态值和前进节点的运行动作,同时依据基于CMAC的递归最小二乘Q强化学习算法,对与权值行向量最终的确定值相关的资格迹、构造矩阵和构造列向量进行更新;然后将前进节点的状态值赋予初始中间量后重复上述从初始节点的状态值赋予初始中间量后的流程,直至初始中间量和终止节点的状态值相同时,重复从初始节点的状态值赋予初始中间量开始的流程直至出现预设个数个初始中间量与终止节点的状态值相同;然后依据递归最小二乘解公式计算所述权值行向量的确定值,以对特征向量空间进行更新获取目标特征向量空间,根据目标特征向量空间和权利向量的确定值便可以获取到经过多次强化学习得到的最终Q值表,根据该最终Q值表便可以得到初始节点到终止节点的最优路径。因为本专利技术实施例提供的技术方案,将递归最小二乘法和多步Q强化学习算法以及CMAC相结合,形成三重循环的算法,既具有递归最小二乘法计算量小和全局极优稳定收敛的优势,又具备CMAC逼近速度快的优势,还具备多步Q强化学习算法的最优搜索的优势,所以使得该算法在大象多人在线游戏的题图等动态随机环境中可以在节省计算资源的同时迅速的得到最终Q值表以及根据最终Q值表得到的最优路径。第二方面,提供一种动态随机环境的路径规划装置,包括:获取模块、建立模块、判断模块、节点处理模块、更新模块、循环模块、权值计算模块、特征计算模块、Q值表计算模块和路径选择模块;获取模块,用于获取资格迹的初始值、构造列向量的初始值、构造矩阵的初始值、初始节点的状态值和终止节点的状态值;初始节点的状态值包括初始节点的空间坐标,终止节点的状态值包括终止节点的空间坐标;建立模块,用于根据小脑神经网络CMAC隐含层的权值行向量的初始值和CMAC的激活函数,构建动态随机环境的特征向量空间;循环模块,用于将获取模块获取的初始节点的状态值赋予初始中间量;节点处理模块用于根据循环模块产生的初始中间量,获取初始节点的运行动作、前进节点的状态值和前进节点的运行动作;更新模块,用于根据循环模块产生的初始中间量、获取模块获取的资格迹的初始值、建立模块构建的特征向量空间、获取模块获取的构造列向量的初始值、获取模块获取的构造矩阵的初始值、节点处理模块获取的初始节点的运行动作、节点处理模块获取的前进节点的状态值和节点处理模块获取的前进节点的运行动作,依据基于CMAC的递归最小二乘Q强化学习算法,对资格迹的初始值、构造列向量的初始值和构造矩阵的初始值进行更新;节点处理模块还用于在循环模块将节点处理模块获取的前进节点的状态值赋予初始中间量后,根据循环模块产生的初始中间量,获取初始节点的运行动作、前进节点的状态值和前进节点的运行动作;初始节点的运行动作与前进节点的状态值一一对应;当判断模块确定循环模块生成的初始中间量和获取模块获取的终止节点的状态值相同时,节点处理模块还用于在循环模块将获取模块获取的初始节点的状态值赋予初始中间量后,根据循环模块产生的初始中间量,获取初始节点的运行动作、前进节点的状态值和前进节点的运行动作;当判断模块确定循环模块产生的所有初始中间量中,存在预设个数个初始中间量与获取模块获取的终止节点的状态值相同时,权值计算模块用于根据更新模块更新的当前时刻的构造矩阵的初始值和构造列向量的初始值,依据递归最小二乘解公式计算权值行向量的确定值;特征计算模块,用于根据权值计算模块计算的权值行向量的确定值对建立模块构建的特征向量空间进行更新,以获取目标特征向量空间;Q值表计算模块,用于根据权值计算模块计算的权值行向量的确定值和特征计算模块获取的目标特征向量空间,依据预设Q值计算公式计算最终Q值表;路径选择模块,用于根据Q值表计算模块计算的最终Q值表确定动态随机环境中初始节点和本文档来自技高网...

【技术保护点】
1.一种动态随机环境的路径规划方法,其特征在于,包括:获取资格迹的初始值、构造列向量的初始值、构造矩阵的初始值、初始节点的状态值和终止节点的状态值;所述初始节点的状态值包括所述初始节点的空间坐标,所述终止节点的状态值包括所述终止节点的空间坐标;根据小脑神经网络CMAC隐含层的权值行向量的初始值和所述CMAC的激活函数,构建所述动态随机环境的特征向量空间;将所述初始节点的状态值赋予初始中间量;根据所述初始中间量,获取所述初始节点的运行动作、前进节点的状态值和前进节点的运行动作;根据所述初始中间量、所述资格迹的初始值、所述特征向量空间、所述构造列向量的初始值、所述构造矩阵的初始值、所述初始节点的运行动作、所述前进节点的状态值和所述前进节点的运行动作,依据基于CMAC的递归最小二乘Q强化学习算法,对所述资格迹的初始值、所述构造列向量的初始值和所述构造矩阵的初始值均进行更新;将所述前进节点的状态值赋予所述初始中间量后,根据所述初始中间量,获取所述初始节点的运行动作、前进节点的状态值和前进节点的运行动作;所述初始节点的运行动作与所述前进节点的状态值一一对应;当确定所述初始中间量和所述终止节点的状态值相同时,将所述初始节点的状态值赋予所述初始中间量后,根据所述初始中间量,获取所述初始节点的运行动作、前进节点的状态值和前进节点的运行动作;当确定所有所述初始中间量中存在预设个数个初始中间量与所述终止节点的状态值相同时,根据当前时刻的所述构造矩阵的初始值和当前时刻的所述构造列向量的初始值,依据递归最小二乘解公式计算所述权值行向量的确定值;根据所述权值行向量的确定值对所述特征向量空间进行更新,以获取目标特征向量空间;根据所述权值行向量的确定值和所述目标特征向量空间,依据预设Q值计算公式计算最终Q值表;根据所述最终Q值表确定所述动态随机环境中所述初始节点和所述终止节点之间的最优路径。...

【技术特征摘要】
1.一种动态随机环境的路径规划方法,其特征在于,包括:获取资格迹的初始值、构造列向量的初始值、构造矩阵的初始值、初始节点的状态值和终止节点的状态值;所述初始节点的状态值包括所述初始节点的空间坐标,所述终止节点的状态值包括所述终止节点的空间坐标;根据小脑神经网络CMAC隐含层的权值行向量的初始值和所述CMAC的激活函数,构建所述动态随机环境的特征向量空间;将所述初始节点的状态值赋予初始中间量;根据所述初始中间量,获取所述初始节点的运行动作、前进节点的状态值和前进节点的运行动作;根据所述初始中间量、所述资格迹的初始值、所述特征向量空间、所述构造列向量的初始值、所述构造矩阵的初始值、所述初始节点的运行动作、所述前进节点的状态值和所述前进节点的运行动作,依据基于CMAC的递归最小二乘Q强化学习算法,对所述资格迹的初始值、所述构造列向量的初始值和所述构造矩阵的初始值均进行更新;将所述前进节点的状态值赋予所述初始中间量后,根据所述初始中间量,获取所述初始节点的运行动作、前进节点的状态值和前进节点的运行动作;所述初始节点的运行动作与所述前进节点的状态值一一对应;当确定所述初始中间量和所述终止节点的状态值相同时,将所述初始节点的状态值赋予所述初始中间量后,根据所述初始中间量,获取所述初始节点的运行动作、前进节点的状态值和前进节点的运行动作;当确定所有所述初始中间量中存在预设个数个初始中间量与所述终止节点的状态值相同时,根据当前时刻的所述构造矩阵的初始值和当前时刻的所述构造列向量的初始值,依据递归最小二乘解公式计算所述权值行向量的确定值;根据所述权值行向量的确定值对所述特征向量空间进行更新,以获取目标特征向量空间;根据所述权值行向量的确定值和所述目标特征向量空间,依据预设Q值计算公式计算最终Q值表;根据所述最终Q值表确定所述动态随机环境中所述初始节点和所述终止节点之间的最优路径。2.根据权利要求1所述的动态随机环境的路径规划方法,其特征在于,所述根据所述初始中间量,获取所述初始节点的运行动作、前进节点的状态值和前进节点的运行动作包括:确定所述初始中间量对应的节点可执行的执行动作为所述初始节点的第一动作;根据所述初始中间量和初始Q值表,依据贪心算法从所述第一动作中选取所述初始节点的运行动作;根据所述初始中间量和所述初始节点的运行动作,确定前进节点的状态值;根据所述前进节点的状态值和所述初始Q值表,依据贪心算法获取所述前进节点的运行动作;所述执行动作包括以下任一项:上、下、左和右。3.根据权利要求2所述的动态随机环境的路径规划方法,其特征在于,所述根据所述初始中间量和初始Q值表,依据贪心算法从所述第一动作中选取所述初始节点的运行动作包括:根据所述初始中间量和所述第一动作,确定第一节点的状态值;所述第一动作和所述第一节点的状态值一一对应;根据第二动作和与所述第二动作对应的第一节点的状态值从所述初始Q值表中选取第一Q值;所述第二动作为任一所述第一动作;将第一Q值最大的第二动作确定为所述初始节点的运行动作。4.根据权利要求1所述的动态随机环境的路径规划方法,其特征在于,所述根据所述初始中间量,获取所述初始节点的运行动作、前进节点的状态值和前进节点的运行动作包括:确定根据所述初始中间量对应的节点可执行的执行动作为所述初始节点的第一动作;根据所述初始中间量和所述终止节点的状态值,依据择劣原则启发搜索算法,从所述第一动作中选取所述初始节点的运行动作;根据所述初始中间量和所述初始节点的运行动作,确定前进节点的状态值;根据所述前进节点的状态值和所述终止节点的状态值,依据择劣原则启发搜索算法获取所述前进节点的运行动作;所述执行动作包括以下任一项:上、下、左和右。5.根据权利要求4所述的动态随机环境的路径规划方法,其特征在于,所述根据所述初始中间量和所述终止节点的状态值,依据择劣原则启发搜索算法,从所述第一动作中选取所述初始节点的运行动作包括:根据所述初始中间量和所述第一动作,确定第一节点的状态值;所述第一动作和所述第一节点的状态值一一对应;根据所述第一节点的状态值与所述终止节点的状态值,依据启发因子公式计算所述第一节点的启发因子值;将启发因子值最大的第一节点的状态值对应的第一动作确定为所述初始节点的运行动作。6.根据权利要求1所述的动态随机环境的路径规划方法,其特征在于,所述根据所述初始中间量、所述资格迹的初始值、所述特征向量空间、所述构造列向量的初始值、所述构造矩阵的初始值、所述初始节点的运行动作、所述前进节点的状态值和所述前进节点的运行动作,依据基于CMAC的递归最小二乘Q强化学习算法,对所述资格迹的初始值、所述构造列向量的初始值和所述构造矩阵的初始值均进行更新包括:根据所述初始中间量和所述特征向量空间,依据预设资格迹更新公式对所述资格迹的初始值进行更新,以获取更新的所述资格迹的初始值;根据所述构造列向量的初始值和所述更新的所述资格迹的初始值,依据预设构造列向量更新公式对所述构造列向量的初始值进行更新,以获取更新的所述构造列向量的初始值;根据所述更新的所述资格迹的初始值、所述初始中间量、所述初始节点的运行动作、所述前进节点的状态值、所述前进节点的运行动作、所述特征向量空间和所述构造矩阵的初始值,依据预设构造矩阵更新公式对所述构造矩阵的初始值进行更新,以获取更新的所述构造矩阵的初始值。7.根据权利要求1所述的动态随机环境的路径规划方法,其特征在于,所述递归最小二乘解公式为:θ=A~b';其中,θ为所述权值行向量的确定值,A~为当前时刻的所述构造矩阵的初始值,b'为当前时刻的所述构造列向量的初始值;所述预设Q值计算公式为:其中,Qπ为所述最终Q值表,为目标特征向量空间,s为任一初始中间量,a为根据s获取的初始节点的运行动作。8.根据权利要求5所述的动态随机环境的路径规划方法,其特征在于,所述启发因子公式为:W(s,a)=||s′-Goal||2;其中,W(s,a)为启发因子,s′为所述第一节点的状态值,Goal为所述终止节点的状态值,s为所述初始中间量,a为s′对应的第一动作。9.根据权利要求6所述的动态随机环境的路径规划方法,其特征在于,所述预设资格迹更新公式为:其中,e'为所述更新的所述资格迹的初始值,e为所述资格迹的初始值,λ为迹衰减因子,γ为折扣因子,s为所述初始中间量,a为根据s获取的初始节点的运行动作,为s和a对应的特征向量空间;所述预设构造列向量更新公式为:b'=e'r+b;其中,b'为所述更新的所述构造列向量的初始值,r为赏金值,b为所述构造列向量的初始值;所述预设构造矩阵更新公式为:其中,A~为所述更新的所述构造矩阵的初始值,A为所述构造矩阵的初始值,s'为根据s获取的前进节点的状态值,a'为根据s获取的前进节点的运行动作,为s'和a'对应的特征向量空间,I为单位矩阵,I的阶数和中特征向量的...

【专利技术属性】
技术研发人员:黄兵明廖军王泽林
申请(专利权)人:中国联合网络通信集团有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1