【技术实现步骤摘要】
仿人脑工作记忆内在评价机制驱动道路事件学习算法
[0001]本专利技术涉及评价机制驱动道路事件学习算法
,具体为仿人脑工作记忆内在评价机制驱动道路事件学习算法。
技术介绍
[0002]认知科学和神经生物学研究表明,工作记忆是人类进行高级认知活动的中枢,它起到控制学习进程,协调脑内各部分在认知活动时的相互作用与信息传递,以及暂存当前任务的相关信息等作用。因此提出了悦觉阳生度驱动的增量自主式视觉学习算法,模拟这样的学习过程,构成控制监控系统自主探索式学习、信息传递与加工中枢的工作记忆。
[0003]现有的评价机制驱动道路事件学习算法没有在场景中输入实景模拟,导致算法在进行验证时会有误差,影响算法的精度,且学习算法的学习机制是依靠外部的,在调整奖励函数时就必须重新人为设计,无法满足智能体主动探索、调整和学习以及发育其智能的要求。
技术实现思路
[0004]本专利技术的目的在于提供仿人脑工作记忆内在评价机制驱动道路事件学习算法,以解决上述
技术介绍
中提出的问题。
[0005]为实现上述目的,本专利技术提供如下技术方案:一种仿人脑工作记忆内在评价机制驱动道路事件学习算法,包括以下步骤:
[0006]S1、基于前额叶工作机理的过程建模
[0007]基于认知计算模型的智能体与环境交互时,感知一个环境输入,经认知计算模型处理后,输出一个决策,并作用于智能体所处的环境,改变其所处的状态,同时智能体接,收到一个奖励信号。
[0008]基于认知计算模型的智能体感知行为与决策过程的 ...
【技术保护点】
【技术特征摘要】
1.仿人脑工作记忆内在评价机制驱动道路事件学习算法,其特征在于,包括以下步骤:S1、基于前额叶工作机理的过程建模基于认知计算模型的智能体与环境交互时,感知一个环境输入,经认知计算模型处理后,输出一个决策,并作用于智能体所处的环境,改变其所处的状态,同时智能体接,收到一个奖励信号;基于认知计算模型的智能体感知行为与决策过程的描述,是随机环境中运行的学习主体(即智能体)的决策问题,且配合认知计算模型的智能体的感知,行为与决策也通过马尔可夫决策过程来建模;设离散化的时间为t=0,1,2,
……
且s
t
∈S为智能体在时刻t的状态,S是所有可能的状态集合,智能体在t时刻的状态即为其在t时刻的视觉感知输入信号,可表示为图像向量x
t
,即s
t
=x
t
a
t
∈A(s
t
)为智能体在t时刻所执行的动作,A(s
t
)为智能体在状态s,时左右可能执行的动作集合,当状态s
t
时,智能体执行动作a
t
,接收到一个奖励信号r
t+1
∈R,同时智能体状态s
t
转移到下一状态s
t+1
;设奖励和下一状态分别采用相应的概率分布表示,即奖励为P
reward
(r
t+1
|s
t
,a
t
),下一状态概率转移函数为P
state
me(S
t+1
|s
t
,a
t
),在智能体状态转移和运行决策过程中,存在一个初始状态和一个终止状态,从初始状态到终止状态的动作序列称为一个片段(Episode);为了寻求最优策略,令智能体执行一个T个步骤的动作序列,记为片段,寻求最优策略的方法为最大化一个片段的期望积累奖励,得到Li=1基于认知计算模型及其学习方法希望使智能体(监控系统)能够不断学习,不断改进自身的性能,这种学习是终生的前提下,令T
→
∞
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(0
‑
2)则上式变为其中γ是折扣率,为保证积累奖励是收敛的,则使0≤γ<1令所要求解的最优策略为π*,对最优价值函数和策略进行求解,其中最优价值函数为式的唯一解,则最优策略即为选择最大化下一状态价值的动作,得到式的唯一解,则最优策略即为选择最大化下一状态价值的动作,得到采用价值迭代法求解最优策略的动态规划算法如下:S1.1、初始化V(s
t
)
*
为任意值;S1.2、针对所有s
t
和a
t
,将表示处于状态s
t
时执行动作a
t
的价值的状态
‑
动作对Q(s
t
,a
t
)
进行迭代计算,即S1.3、更新值函数V(s
t
)
←
maxat(s
t
,a
t
);S1.4、若V(s
t
)没有收敛到指定值,则返回S1.2继续计算,否则算法终止,在策略迭代中,直接存储和更新策略,而不是通过价值迭代方式间接地求解最优策略,其思想是从一个策略开始,不断改变它直到...
【专利技术属性】
技术研发人员:瞿心昱,刘媛媛,陈思睿,徐方圆,窦慧丽,刘自冉,王雅明,周剑,
申请(专利权)人:浙江交通职业技术学院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。