System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于SAC和神经回路策略的机器人控制方法、电子设备及存储介质技术_技高网

一种基于SAC和神经回路策略的机器人控制方法、电子设备及存储介质技术

技术编号:39943346 阅读:5 留言:0更新日期:2024-01-08 22:44
一种基于SAC和神经回路策略的机器人控制方法、电子设备及存储介质,属于机器人行为控制技术领域。为提高机器人处理速度和智能特性,本发明专利技术将机器人控制与强化学习中SAC算法相结合,摆脱了传统控制算法对模型的限制,提高了机器人的学习速度和对经验样本的利用效率,解决了机器人易陷入局部最优、无法合理规划动作的问题。通过构建四层神经回路策略网络作为控制输出生成网络,能够高效准确地完成机器人控制,与当前时期其他技术相比,本方法对硬件算力要求更低,能够拥有较高的计算效率,只需要少量神经元便能达到较好的效果。本方法工作原理更接近神经细胞的功能原理,具有更先进的理论支撑,在人工智能领域有更多发展潜力。

【技术实现步骤摘要】

本专利技术属于机器人行为控制,具体涉及一种基于sac和神经回路策略的机器人控制方法、电子设备及存储介质。


技术介绍

1、机器人领域的最新进展应用于各个行业中。机器人设计的一个关键方面是开发能够有效处理复杂和动态环境的控制系统。强化学习已经成为一种强大的工具,使机器人能够通过获取环境的反馈来学习如何执行特定的任务。

2、尽管强化学习算法取得了进展,但开发能够鲁棒地适应环境变化并有效执行复杂任务的控制系统仍然具有挑战性。这些强化学习的方法虽然性能要优于传统网络,但往往缺乏泛化能力,且有可能陷入次优决策,对训练数据过度拟合。


技术实现思路

1、本专利技术要解决的问题是提高机器人处理速度和智能特性,提出一种基于sac和神经回路策略的机器人控制方法、电子设备及存储介质。

2、为实现上述目的,本专利技术通过以下技术方案实现:

3、一种基于sac和神经回路策略的机器人控制方法,包括如下步骤:

4、s1.构建仿真环境,设计机器人初始位置、速度和倾角,采集机器人的运动状态数据;

5、s2.构建线性层,将步骤s1采集的机器人的运动状态数据输入到线性层进行线性变换,得到机器人的运动状态特征序列;

6、s3.构建基于神经回路策略网络的sac演员网络,将步骤s2得到的机器人的运动状态特征序列输入到基于神经回路策略网络的sac演员网络,神经回路策略的感知层接收到步骤s2生成的机器人的运动状态特征序列,利用正负极性的突触向中转层传递抑制信号或激发信号,抑制信号或激发信号经过中转层向控制层传递,接着循环传递并输出到驱动层,驱动层更新所有神经元的状态,各个运动神经元经非线性激活函数计算出输出膜电位,输出膜电位最高的仿生神经元为机器人控制策略;

7、s4.构建sac评论家网络,将步骤s3得到的当前机器人状态和机器人控制策略输入到sac评论家网络中,sac评论家网络基于q值函数计算sac评论家网络输出项,评估当前机器人状态和机器人控制策略的有效性;

8、s5.构建重放缓冲区,将步骤s3得到的当前机器人状态和机器人控制策略存储到重放缓冲区,将步骤s4得到的sac评论家网络输出项存储到重放缓冲区,然后基于重放缓冲区中存储的信息数据更新基于神经回路策略网络的sac演员网络和sac评论家网络的权重,完成基于sac和神经回路策略的机器人控制。

9、进一步的,步骤s1的仿真环境基于pybullet walker2d和pybulletant实现。

10、进一步的,步骤s3所述神经回路策略网络由四层分层网络拓扑结构构建而成,包括感知层、中转层、控制层和驱动层,感知层的神经元为感知神经元ns,中转层的神经元为中间神经元ni,控制层的神经元为命令神经元nc,驱动层的神经元为运动神经元nm;所述感知神经元到中间神经元为前馈主导连接,中间神经元和命令神经元为高度重合性连接,命令神经元到运动神经元为前馈连接;

11、所述神经回路策略网络通过感知神经元接收机器人的运动状态特征序列,然后将机器人的运动状态特征序列传递给中间神经元和命令神经元生成输出决策,然后将生成的输出决策传递给运动神经元输出机器人控制策略。

12、进一步的,步骤s3的具体实现方法包括如下步骤:

13、s3.1.感知层接收机器人的运动状态特征序列:将步骤s2得到的机器人的运动状态特征序列转化为脉冲信号输入到神经回路策略网络的感知层的感知神经元,感知层通过不同极性的突触向中转层传递抑制信号或激发信号,并根据突触的权重更新中间神经元的状态,同时继续接收机器人的运动状态特征序列向中转层传递;

14、s3.2.中转层转接:中间神经元接收到激发信号或抑制信号,激发信号会增加神经元膜电位,抑制信号会降低神经元膜电位,信号传递过程中,在正极性的突触上源神经元的膜电位高于传递阈值时将增强信号的强度,负极性的突触上源神经元膜电位高于传递阈值时将降低信号的强度,以此来模拟生物神经系统模型;

15、s3.3.控制层循环:命令神经元接收步骤s3.2中间神经元发送的激发信号或抑制信号,通过突触向运动神经元传递激发信号或抑制信号,命令神经元还同时接收自身所在控制层的上个时间间隔产生的输出信号,两者共同作用于运动神经元的膜电位;

16、s3.4.驱动层运动神经元接收控制层的信号后,其膜电位最高值所对应神经元对应编码为机器人运动方式,选择该神经元对应输出机器人控制策略。

17、进一步的,步骤s3中突触后神经元i接受来自突触前神经元j的输入电流的神经状态表示方程为:

18、

19、其中,xi是神经元i的当前状态,即膜电位,是具有泄漏电导的神经元i的时间常数,在不同仿生神经元上τi不同,从而保证了膜电位变化的异步性,wij是从神经元j到神经元i的突触权重,是膜电容,σi(xj)是神经元激活函数,与信号强度正相关,是静息电位,eij是逆转突触电位,定义了突触的极性;

20、仿生神经元的整体耦合灵敏度的表达式为:

21、

22、确定了决策过程中仿生神经元的反应速度。

23、进一步的,步骤s4的具体实现方法包括如下步骤:

24、s4.1.构建sac评论家网络,设置时间步t的机器人控制策略的π熵为h(π(·|st)),除第一个时间步外,所有时间步t的机器人控制策略的π熵加入q值函数qπ(s,a),计算表达式为:

25、

26、其中,s代表状态,a代表动作;α为温度参数,决定熵项的权重;γ为折扣因子,γ∈(0,1);

27、s4.2.将步骤s4.1得到的q值函数与价值函数vπ(s)连接,计算表达式为:

28、

29、s4.3.基于步骤s4.1的q值函数建立熵奖励目标函数yi,计算表达式为:

30、

31、其中,r为环境产生的奖励,后续行动从当前机器人控制策略中采样;

32、s4.4.采用重新参数化的方法来学习机器人控制策略,并通过计算依赖于状态、策略变量和非相关噪声ξ的确定性函数来完成对策略的采样,确定性函数的计算表达式为:

33、

34、s4.5.基于步骤s4构建的确定性函数将sac的输出项转化为对噪音的期望达到最大化,计算表达式为:

35、

36、通过评估机器人控制策略的当前状态和活动的价值,向actor网络提供反馈,从当前状态采取当前行动时,批评家网络输入当前状态和行动,并产生q值用于预测当前机器人状态和机器人控制策略的有效性。

37、进一步的,步骤s5的所述重放缓冲区中的信息由软价值函数生成,其中包括sac评论家网络的输出项和鼓励探索性的熵项。

38、电子设备,包括存储器和处理器,存储器存储有计算机程序,所述的处理器执行所述计算机程序时实现所述的一种基于sac和神经回路策略的机器人控制方法的步骤。

本文档来自技高网...

【技术保护点】

1.一种基于SAC和神经回路策略的机器人控制方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的一种基于SAC和神经回路策略的机器人控制方法,其特征在于,步骤S1的仿真环境基于PyBullet Walker2D和PyBullet Ant实现。

3.根据权利要求2所述的一种基于SAC和神经回路策略的机器人控制方法,其特征在于,步骤S3所述神经回路策略网络由四层分层网络拓扑结构构建而成,包括感知层、中转层、控制层和驱动层,感知层的神经元为感知神经元Ns,中转层的神经元为中间神经元Ni,控制层的神经元为命令神经元Nc,驱动层的神经元为运动神经元Nm;所述感知神经元到中间神经元为前馈主导连接,中间神经元和命令神经元为高度重合性连接,命令神经元到运动神经元为前馈连接;

4.根据权利要求3所述的一种基于SAC和神经回路策略的机器人控制方法,其特征在于,步骤S3的具体实现方法包括如下步骤:

5.根据权利要求4所述的一种基于SAC和神经回路策略的机器人控制方法,其特征在于,步骤S3中突触后神经元i接受来自突触前神经元j的输入电流的神经状态表示方程为:

6.根据权利要求5所述的一种基于SAC和神经回路策略的机器人控制方法,其特征在于,步骤S4的具体实现方法包括如下步骤:

7.根据权利要求6所述的一种基于SAC和神经回路策略的机器人控制方法,其特征在于,步骤S5的所述重放缓冲区中的信息由软价值函数生成,其中包括SAC评论家网络的输出项和鼓励探索性的熵项。

8.电子设备,其特征在于,包括存储器和处理器,存储器存储有计算机程序,所述的处理器执行所述计算机程序时实现权利要求1-7任一项所述的一种基于SAC和神经回路策略的机器人控制方法的步骤。

9.计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-7任一项所述的一种基于SAC和神经回路策略的机器人控制方法。

...

【技术特征摘要】

1.一种基于sac和神经回路策略的机器人控制方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的一种基于sac和神经回路策略的机器人控制方法,其特征在于,步骤s1的仿真环境基于pybullet walker2d和pybullet ant实现。

3.根据权利要求2所述的一种基于sac和神经回路策略的机器人控制方法,其特征在于,步骤s3所述神经回路策略网络由四层分层网络拓扑结构构建而成,包括感知层、中转层、控制层和驱动层,感知层的神经元为感知神经元ns,中转层的神经元为中间神经元ni,控制层的神经元为命令神经元nc,驱动层的神经元为运动神经元nm;所述感知神经元到中间神经元为前馈主导连接,中间神经元和命令神经元为高度重合性连接,命令神经元到运动神经元为前馈连接;

4.根据权利要求3所述的一种基于sac和神经回路策略的机器人控制方法,其特征在于,步骤s3的具体实现方法包括如下步骤:

5.根据权利...

【专利技术属性】
技术研发人员:莫宏伟徐立芳张圣胤温峰
申请(专利权)人:哈尔滨工程大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1