【技术实现步骤摘要】
基于Q学习神经网络的无人船路径规划方法
本专利技术属于无人驾驶船智能控制领域,具体是涉及一种基于Q学习神经网络的无人船路径规划方法。
技术介绍
水质监测是水质评价和预防水污染的主要方法。随着工业废水的增多,水体污染的问题日益严重化,水污染动态监测的需求刻不容缓。但是因为传统的水质监测方法步骤繁多、耗时长,但获取到的数据多样性、准确性远远不满足决策的需求。根据上述问题,多种水质监测方法被提出,如曹立杰等人提出通过建立传感器网络,得到较为精准的水质反演模型。田野等人提出通过水质模型对卫星数据进行反演,得到监测水域的水质参数分布图。但是以上方法无法灵活地更换监测水域,且工程量大、步骤繁多,相较而言水质监测无人船体积小便于携带、监测领域不受地形影响,能连续性原位进行多项水质参数监测,使监测结果更具有多样性和准确性。无人驾驶船(UnmannedSurfaceVehicle,USV)是一种能够在未知水域环境下自主航行,并完成各种任务的水面运动平台,因被应用领域广泛,研究内容涉及自动驾驶、自主避障、航行规划和模式识别等多方面。它不仅可以被用于军事领域的扫雷、侦察和反潜作战等方面 ...
【技术保护点】
1.一种基于Q学习神经网络的无人船路径规划方法,其特征在于,包括以下步骤:a)、初始化存储区D;b)、初始化Q网络,状态、动作初始值;Q网络中包含以下元素:S,A,Ps,α,R,其中其中S表示USV所处的系统状态的集合,A表示USV所能采取的动作的集合,Ps,α表示系统状态转移概率,R表示奖励函数;c)、随机设定训练目标;d)、随机选择动作at,得到当前奖励rt,下一时刻状态st+1,将(st,at,rt,st+1)存到存储区D中;e)、从存储区D中随机采样一批数据进行训练,即一批(st,at,rt,st+1),当USV达到目标位置,或超过每轮最大时间时的状态都认为是最终状 ...
【技术特征摘要】
1.一种基于Q学习神经网络的无人船路径规划方法,其特征在于,包括以下步骤:a)、初始化存储区D;b)、初始化Q网络,状态、动作初始值;Q网络中包含以下元素:S,A,Ps,α,R,其中其中S表示USV所处的系统状态的集合,A表示USV所能采取的动作的集合,Ps,α表示系统状态转移概率,R表示奖励函数;c)、随机设定训练目标;d)、随机选择动作at,得到当前奖励rt,下一时刻状态st+1,将(st,at,rt,st+1)存到存储区D中;e)、从存储区D中随机采样一批数据进行训练,即一批(st,at,rt,st+1),当USV达到目标位置,或超过每轮最大时间时的状态都认为是最终状态;f)、如果st+1不是最终状态,则返回步骤d,若st+1是最终状态,则更新Q网络参数,并返回步骤d,重复n轮后算法结束;g)、设定目标,用训练后的Q网络进行路径规划,直到USV到达目标位置。2.根据权利要求1所述的基于Q学习神经网络的无人船路径规划方法,其特征在于,步骤a)中,存储区D为经验回放存储区,用来存储USV航行过程兵采集训练样本。3.根据权利要求1所述的基于Q学习神经网络的无人船路径规划方法,其特征在于,Q网络的算法规则为:Q(st,at)=Q(st,at)+αδ′t其中,函数Q(st,at)为在状态st时执行动作at,α为学习率,δ′t为TD(0)偏差值,TD(0)中的0表示的是在当前状态下往前多看1步,其值为:δ′t=R(st)+γV(st+1)-Q(st,at)其中,γ为折扣因子,R(s)为奖励函数,V(s)为值函数,值函数另外,也可以把TD(0)偏差值定义为δt+1=R(st+1)+γV(st+2)-V(st+1)其中,δt+1为TD(0)偏差值,R(s)为奖励函数,V(s)为值函数,应用另一个折扣因子λ∈[0,1]来对将来步骤中的TD偏差值进行折扣,Q(st,at)=Q(st,at)+αδtλ其中,函数Q(st,at)为在状态st时执行动作at,α为学习率,δtλ为TD(λ)的偏差值,TD(λ)是在当前状态下往前多看λ步;在这里TD(λ)的偏差值δtλ定义为其中,δ′t代表着过去学习得到的偏差值,δtλ进行多步学习的偏差值,γ为折扣因子,λ为折扣因子,且λ∈[0,1],δt+i为现在学习得到的偏差值。4.根据权利要求1所述的基于Q学习神经网络的无人船路径规划方法,其特征在于,将ηt(s,a)定义为特征函数:在t时刻(s,a)发生,则返回1,否则返回0,为了简化,忽略学习效率,对每个(s,a)定义一个跟踪迹et(s,a)那么在时刻t在线更新为Q(s,a)=Q(s,a)+α[δ′tηt(s,a)+δtet(s,a)]其中,函数Q(s,a)为在状态s时执行动作a,α为学习率,ηt(s,a)为特征函数,et(s,a)为跟踪迹,δ′t代表着过去学习的偏差值,δ1为现在学习得到的偏差值。5.根据权利要求4所述的基于Q学...
【专利技术属性】
技术研发人员:冯海林,吕扬民,方益明,周国模,
申请(专利权)人:浙江农林大学,
类型:发明
国别省市:浙江,33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。