The invention discloses a decision tree behavior decision algorithm based on teaching and learning, which mainly solves the problem that existing decision algorithms existing in existing technology cannot simultaneously take into consideration the complex complex scenes and stable requirements. Based on the teaching decision tree learning behavior decision algorithm comprises the following steps of: storing teaching trajectory state transition rule; calculate the state transition matrix and the frequency of state transtion-probablity matrix; incentive; decision tree to evaluate the action; update frequency transfer matrix and state transtion-probablity matrix; repeat the above to evaluate the process by. Through the above scheme, the invention achieves the goal of maximum rationality and safety for unmanned driving behavior decision.
【技术实现步骤摘要】
基于示教学习的决策树行为决策算法
本专利技术涉及无人驾驶领域,具体地说,是涉及一种基于示教学习的决策树行为决策算法。
技术介绍
无人驾驶汽车是具有自主行驶能力移动机器人的一种高级形态。它是能够实现环境感知、决策规划与运动控制三大功能于一体的智能计算系统。系统相对其它小型移动机器人来说,结构比较复杂。除了基本的移动行驶能力外,具有运用雷达、摄像头等各种传感器配合特制的高精度地图进行即时的数据融合与定位,实现对当前环境的感知理解。同时,根据感知器理解的道路和运动障碍物信息,车辆运用决策规划算法切出合理可行的预期轨迹,由控制模块进行最终的车辆移动行为实施。整个智能计算系统包括了车道线检测、障碍物识别、高精度地图、高精度定位、决策规划算法和控制器设计等重要的关键技术,涉及众多学科知识,具有极高的理论研究意义与工程实践价值。无人驾驶车辆研究的领域包括环境感知、行为决策、规划控制三大方向。其中,行为决策作为连接环境感知与规划控制的中枢位置,具有十分重要的地位,已经成为无人驾驶领域研究的重点和难点。行为决策是在当前环境下可选的几种可行性方案中挑选出符合自身行为目的的最佳方案过程 ...
【技术保护点】
一种基于示教学习的决策树行为决策算法,其特征在于,包括如下步骤:(a)用行为的状态转移频率矩阵和状态转移概率矩阵来描述示教学习中的示教规律,存储示教轨迹的状态转移规律;(b)根据步骤(a)求取状态转移频率矩阵和状态转移概率矩阵;(c)根据状态转移频率构建奖励;(d)转移概率矩阵输出即将进行的选择动作时,决策树根据步骤(b)对状态转移概率矩阵即将产生的动作进行评估,评估通过,则执行状态转移,评估不通过,则执行步骤(e);(e)根据步骤(b)和(c)通过Actor‑Critic算法更新转移频率矩阵与状态转移概率矩阵;(f)重复步骤(d)和(e)至评估通过。
【技术特征摘要】
1.一种基于示教学习的决策树行为决策算法,其特征在于,包括如下步骤:(a)用行为的状态转移频率矩阵和状态转移概率矩阵来描述示教学习中的示教规律,存储示教轨迹的状态转移规律;(b)根据步骤(a)求取状态转移频率矩阵和状态转移概率矩阵;(c)根据状态转移频率构建奖励;(d)转移概率矩阵输出即将进行的选择动作时,决策树根据步骤(b)对状态转移概率矩阵即将产生的动作进行评估,评估通过,则执行状态转移,评估不通过,则执行步骤(e);(e)根据步骤(b)和(c)通过Actor-Critic算法更新转移频率矩阵与状态转移概率矩阵;(f)重复步骤(d)和(e)至评估通过。2.根据权利要求1所述的基于示教学习的决策树行为决策算法,其特征在于,步骤(a)的具体过程为:先将预测路面的长度进行栅格化;设计记录转换关系的状态转移表格;以矩阵的形式填入转移表格的频率,以此作为示教中由当前状态转移到后继状态的频次,状态转移概率是通过softmax函数计算当前状态的后继n个可能状态的访问频率得出。3.根据权利要求1所述的基于示教学习的决策树行为决策算法,其特征在于,步骤(b)的具体过程为:状态转移频率是记录当前状态下即将被访问状态的次数,状态转移概率即计算这样的次数所得出的转移概率值;将示教学习的状态转移轨迹进行离散化抽样构建状态转移频率矩阵,状态转移概率是通过softmax函数计算当前状态的后继n个可能状态的访问频率得出。4.根据权利要求1所述的基于示教学习的决策树行为决策算法,其特征在于,步骤(c)的具体过程为:将即将进行的状态动作与期望的状态动作进行比对;如果符合期望的则进行奖励加分,否则进行负奖励惩罚;若在当前状态的其它未选择动作中出现比所选动作更加接近期望动作的行为,则进行奖励加分;最终...
【专利技术属性】
技术研发人员:王祝萍,邢文治,张皓,陈启军,
申请(专利权)人:同济大学,
类型:发明
国别省市:上海,31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。