仿人脑工作记忆内在评价机制驱动道路事件学习算法制造技术

技术编号:37574067 阅读:10 留言:0更新日期:2023-05-15 07:51
本发明专利技术涉及评价机制驱动道路事件学习算法技术领域,且公开了仿人脑工作记忆内在评价机制驱动道路事件学习算法,包括以下步骤:S1、基于前额叶工作机理的过程建模,S2、精准计算并学习提高计算模型的智能体,S3、解决具备PFC工作记忆的智能体的决策问题,S4、视觉陌生度驱动的增量自主式视觉学习算法,S5、利用多种传感器与软件数据收集外部环境信息。该仿人脑工作记忆内在评价机制驱动道路事件学习算法,可以计算出驾驶所需要的位置、距离等信息,超声波传感器根据物体反射回来的时间、频率以及声波形状等信息检测位置和速度,并输入进算法中,可以根据输入的环境进行模拟,并录入场景,在验证时有所帮助。在验证时有所帮助。在验证时有所帮助。

【技术实现步骤摘要】
仿人脑工作记忆内在评价机制驱动道路事件学习算法


[0001]本专利技术涉及评价机制驱动道路事件学习算法
,具体为仿人脑工作记忆内在评价机制驱动道路事件学习算法。

技术介绍

[0002]认知科学和神经生物学研究表明,工作记忆是人类进行高级认知活动的中枢,它起到控制学习进程,协调脑内各部分在认知活动时的相互作用与信息传递,以及暂存当前任务的相关信息等作用。因此提出了悦觉阳生度驱动的增量自主式视觉学习算法,模拟这样的学习过程,构成控制监控系统自主探索式学习、信息传递与加工中枢的工作记忆。
[0003]现有的评价机制驱动道路事件学习算法没有在场景中输入实景模拟,导致算法在进行验证时会有误差,影响算法的精度,且学习算法的学习机制是依靠外部的,在调整奖励函数时就必须重新人为设计,无法满足智能体主动探索、调整和学习以及发育其智能的要求。

技术实现思路

[0004]本专利技术的目的在于提供仿人脑工作记忆内在评价机制驱动道路事件学习算法,以解决上述
技术介绍
中提出的问题。
[0005]为实现上述目的,本专利技术提供如下技术方案:一种仿人脑工作记忆内在评价机制驱动道路事件学习算法,包括以下步骤:
[0006]S1、基于前额叶工作机理的过程建模
[0007]基于认知计算模型的智能体与环境交互时,感知一个环境输入,经认知计算模型处理后,输出一个决策,并作用于智能体所处的环境,改变其所处的状态,同时智能体接,收到一个奖励信号。
[0008]基于认知计算模型的智能体感知行为与决策过程的描述,是随机环境中运行的学习主体(即智能体)的决策问题,且配合认知计算模型的智能体的感知,行为与决策也通过马尔可夫决策过程来建模。
[0009]设离散化的时间为t=0,1,2,
……
且s
t
∈S为智能体在时刻t的状态,S是所有可能的状态集合,智能体在t时刻的状态即为其在t时刻的视觉感知输入信号,可表示为图像向量x
t
,即s
t
=x
t
a
t
∈A(s
t
)为智能体在t时刻所执行的动作,A(s
t
)为智能体在状态s,时左右可能执行的动作集合,当状态s
t
时,智能体执行动作a
t
,接收到一个奖励信号r
t+1
∈R,同时智能体状态s
t
转移到下一状态s
t+1

[0010]设奖励和下一状态分别采用相应的概率分布表示,即奖励为P
reward
(r
t+1
|s
t
,a
t
),下一状态概率转移函数为P
state
me(S
t+1
|s
t
,a
t
),在智能体状态转移和运行决策过程中,存在一个初始状态和一个终止状态,从初始状态到终止状态的动作序列称为一个片段(Episode)。
[0011]为了寻求最优策略,令智能体执行一个T个步骤的动作序列,记为片段,寻求最优策略的方法为最大化一个片段的期望积累奖励,得到
[0012][0013]Li=1
[0014]基于认知计算模型及其学习方法希望使智能体(监控系统)能够不断学习,不断改进自身的性能,这种学习是终生的前提下,令
[0015]T

∞ (0

2)
[0016]则上式变为
[0017][0018]其中γ是折扣率,为保证积累奖励是收敛的,则使0≤γ<1
[0019]令所要求解的最优策略为π
*
,对最优价值函数和策略进行求解,其中最优价值函数为式的唯一解,则最优策略即为选择最大化下一状态价值的动作,得到
[0020][0021][0022]采用价值迭代法求解最优策略的动态规划算法如下:
[0023]S1.1、初始化V(s
t
)
*
为任意值。
[0024]S1.2、针对所有s
t
和a
t
,将表示处于状态s
t
时执行动作a
t
的价值的状态

动作对Q(s
t
,a
t
)进行迭代计算,即
[0025][0026]S1.3、更新值函数V(s
t
)

maxat(s
t
,a
t
)。
[0027]S1.4、若V(s
t
)没有收敛到指定值,则返回S1.2继续计算,否则算法终止,在策略迭代中,直接存储和更新策略,而不是通过价值迭代方式间接地求解最优策略,其思想是从一个策略开始,不断改变它直到没有改变为止,价值函数通过求解线性方程组来计算,然后去检验是否可以将求得的解考虑在内而改进策略,这保证了对策略的改进,且当其不再可能继续改进时,确保所得到的策略是最优的,采用策略迭代法求解最优策略的动态规划算法如下。
[0028]S1.1(1)任意初始化一个策略π
丿
[0029]S1.1(2)将π
丿
赋给最终要求的策略π
[0030]S1.1(3)解线性方程组,计算采用策略π
丿
的价值,即
[0031][0032]S1.1(4)在每个状态上改进策略,即
[0033]π,(s
t
)

argmax(|E[r
t+1
|s
t
,a
t
]+yxP
state
(s
t+1
|s
t
,a
t
)V

(s
t
)
ꢀꢀꢀ
(0

8)
[0034]S1.1(5)若未满足条件π=π
丿
,则返回S1.2继续计算,否则算法终止。
[0035]S2、精准计算并学习提高计算模型的智能体
[0036]深度学习的人工神经网络识别与人类学习和识别物体的原理类似,重复、重复再重复,为了做到识别,感知器需要不断重复,直到机器设定好应对每个错误的相应电阻,而这个过程以数据输入为基础,即向软件中不断的输入大量数据,直到软件可以识别人类所认知的物体,智能体不必精确进行前瞻性搜索即可选择最优动作与策略,这样的性能是基于认知计算模型的智能体需要的从不断与环境交互中学习知识特性的基础。
[0037]S3、解决具备PFC工作记忆的智能体的决策问题
[0038]通过模拟了人类大脑参与的高级认知活动,建立了基于认知计算模型的智能体工作记忆PFC部分的数学模型与描述。
[0039]S4、视觉陌生度驱动的增量自主式视觉学习算法
[0040]将本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.仿人脑工作记忆内在评价机制驱动道路事件学习算法,其特征在于,包括以下步骤:S1、基于前额叶工作机理的过程建模基于认知计算模型的智能体与环境交互时,感知一个环境输入,经认知计算模型处理后,输出一个决策,并作用于智能体所处的环境,改变其所处的状态,同时智能体接,收到一个奖励信号;基于认知计算模型的智能体感知行为与决策过程的描述,是随机环境中运行的学习主体(即智能体)的决策问题,且配合认知计算模型的智能体的感知,行为与决策也通过马尔可夫决策过程来建模;设离散化的时间为t=0,1,2,
……
且s
t
∈S为智能体在时刻t的状态,S是所有可能的状态集合,智能体在t时刻的状态即为其在t时刻的视觉感知输入信号,可表示为图像向量x
t
,即s
t
=x
t
a
t
∈A(s
t
)为智能体在t时刻所执行的动作,A(s
t
)为智能体在状态s,时左右可能执行的动作集合,当状态s
t
时,智能体执行动作a
t
,接收到一个奖励信号r
t+1
∈R,同时智能体状态s
t
转移到下一状态s
t+1
;设奖励和下一状态分别采用相应的概率分布表示,即奖励为P
reward
(r
t+1
|s
t
,a
t
),下一状态概率转移函数为P
state
me(S
t+1
|s
t
,a
t
),在智能体状态转移和运行决策过程中,存在一个初始状态和一个终止状态,从初始状态到终止状态的动作序列称为一个片段(Episode);为了寻求最优策略,令智能体执行一个T个步骤的动作序列,记为片段,寻求最优策略的方法为最大化一个片段的期望积累奖励,得到Li=1基于认知计算模型及其学习方法希望使智能体(监控系统)能够不断学习,不断改进自身的性能,这种学习是终生的前提下,令T


ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(0

2)则上式变为其中γ是折扣率,为保证积累奖励是收敛的,则使0≤γ<1令所要求解的最优策略为π*,对最优价值函数和策略进行求解,其中最优价值函数为式的唯一解,则最优策略即为选择最大化下一状态价值的动作,得到式的唯一解,则最优策略即为选择最大化下一状态价值的动作,得到采用价值迭代法求解最优策略的动态规划算法如下:S1.1、初始化V(s
t
)
*
为任意值;S1.2、针对所有s
t
和a
t
,将表示处于状态s
t
时执行动作a
t
的价值的状态

动作对Q(s
t
,a
t
)
进行迭代计算,即S1.3、更新值函数V(s
t
)

maxat(s
t
,a
t
);S1.4、若V(s
t
)没有收敛到指定值,则返回S1.2继续计算,否则算法终止,在策略迭代中,直接存储和更新策略,而不是通过价值迭代方式间接地求解最优策略,其思想是从一个策略开始,不断改变它直到...

【专利技术属性】
技术研发人员:瞿心昱刘媛媛陈思睿徐方圆窦慧丽刘自冉王雅明周剑
申请(专利权)人:浙江交通职业技术学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1