一种基于强化学习的无人机路径规划方法和装置制造方法及图纸

技术编号:15228840 阅读:224 留言:0更新日期:2017-04-27 14:08
本发明专利技术公开了一种基于强化学习的无人机路径规划方法和装置,所述方法包括:执行单次飞行动作前感知无人机的当前环境状态,根据Q函数和所述当前环境状态选择飞行动作;执行所述飞行动作,根据执行所述飞行动作得到的回报更新所述Q函数;判断所述飞行动作是否达到预设条件;若是,则飞行结束,否则进行下一次飞行动作。实现了未知环境下对无人机飞行动作进行选择,进而对其路径进行规划,计算量小,成本低。

【技术实现步骤摘要】

本专利技术实施例涉及机器学习领域,尤其涉及一种基于强化学习的无人机路径规划方法和装置。
技术介绍
由于人工作业的存在着一定的复杂性和危险性,现如今多数作业由机器实现。无人机由于其体积小,可以做各种动作以及可以灵活控制,在军事和民用领域中得到了广泛运用,在进行火灾抢救,民用施肥、浇水以及未知的狭小地区的探测等方面,都需要对无人机进行路径规划。现有的路径规划算法,主要分为两层,一层是基于线下的静态路径规划,指的是各种威胁以及环境地形均已确定的情况下进行的路径规划。第二层则是实时动态的在线路径规划,指的是无人机在飞行过程中遇到未知威胁以及环境地形不确定的情况下的动态规划。其中,具体又有基于单元分解的规划方法、人工势场法、基于数学模型的轨迹优化法以及基于神经网络的路径规划法等。基于单元分解的规划方法,其分解较为复杂且该算法的收敛速度和计算量也依赖于启发函数的选择;人工势场法,容易出现局部最优点,导致无法找到航线,且只适合低维数空间的路径规划;基于数学模型的轨迹优化法,其计算量大,需要通过数值解法来进行求解且容易受局部最小值的影响,故常用于局部的规划;基于神经网络的规划方法是将数字地图地形信本文档来自技高网...

【技术保护点】
一种基于强化学习的无人机路径规划方法,其特征在于,包括:执行单次飞行动作前感知无人机的当前环境状态,根据Q函数和所述当前环境状态选择飞行动作;执行所述飞行动作,根据执行所述飞行动作得到的回报更新所述Q函数;判断所述飞行动作是否达到预设条件;若是,则飞行结束,否则进行下一次飞行动作。

【技术特征摘要】
1.一种基于强化学习的无人机路径规划方法,其特征在于,包括:执行单次飞行动作前感知无人机的当前环境状态,根据Q函数和所述当前环境状态选择飞行动作;执行所述飞行动作,根据执行所述飞行动作得到的回报更新所述Q函数;判断所述飞行动作是否达到预设条件;若是,则飞行结束,否则进行下一次飞行动作。2.根据权利要求1所述的方法,其特征在于,所述Q函数为:其中,Qt+1(st,at)为t+1时刻对应的Q值,Qt(st,at)为t时刻的Q值,λt为学习速率,γ为折扣因子,rt为执行t时刻动作的回报值。3.根据权利要求2所述的方法,其特征在于,所述方法还包括:初始化强化学习的Q函数,所述Q函数的参数,包括所述学习速率、所述折扣因子和所述回报值。4.根据权利要求1所述的方法,其特征在于,所述执行单次飞行动作前感知无人机的当前环境状态,根据Q函数和所述当前环境状态选择飞行动作包括:执行单次飞行动作前感知无人机的当前环境状态;基于Q函数的函数值应用softmax函数计算无人机在所述当前环境的状态下选择动作各个动作的概率;选择概率最大的动作作为飞行动作。5.根据权利要求1所述的方法,其特征在于,所述预设条件包括:执行预设次数的动作或满足预设动作...

【专利技术属性】
技术研发人员:郝祁张志建杨云波
申请(专利权)人:南方科技大学
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1