System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于扩散模型和拉普拉斯表征的双层技能学习方法和装置制造方法及图纸_技高网
当前位置: 首页 > 专利查询>徐梓淮专利>正文

基于扩散模型和拉普拉斯表征的双层技能学习方法和装置制造方法及图纸

技术编号:40586673 阅读:3 留言:0更新日期:2024-03-12 21:46
本发明专利技术公开了一种基于扩散模型和拉普拉斯表征的双层技能学习方法和装置。其中,该方法包括:使用扩散模型作为策略网络对机器人进行低级技能训练,以得到的训练好的低级技能策略和状态表征网络;根据训练好的低级技能策略和状态表征网络,通过使用扩散模型进行环境建模对机器人进行高级技能训练,以得到训练好的高级技能策略和环境模型。本发明专利技术将预训练技能阶段分为低级技能训练和高级技能训练,能够训练出更加平稳的高级技能;使用扩散模型作为低级技能的策略网络,其训练过程更加迅速且高效;在训练高级技能的过程中,使用扩散模型进行环境建模,加速了训练过程;训练低级技能时使用拉普拉斯图进行状态编码,更好地训练出连贯且有意义的技能。

【技术实现步骤摘要】

本专利技术实施例涉及机器人技能学习,尤其涉及一种基于扩散模型和拉普拉斯表征的双层技能学习方法。


技术介绍

1、机器人控制是指管理和指导机器人执行特定任务或行为的过程。机器人控制在现代科技和工程领域中具有重要的意义,它不仅推动了机器人技术的发展,还在各种应用领域中发挥了关键作用。机器人控制在制造业中广泛应用,能够提高生产效率、降低成本、减少人力需求,并提高产品质量。

2、早期的机器人控制采用经典控制方法,它依赖于数学模型,受限于具体的环境,在解决许多复杂问题时,难以用此类控制理论进行定量计算和分析。当机器人工作环境及工作目标的性质和特征在工作过程中随时间发生变化时,控制系统的特性有未知和不定的特性。这未知和不确定因素使控制系统性能降低。因此,在研究被控对象的模型存在不确定性及未知环境交互作用较强情况下的控制时,机器人控制必须具有模拟人类学习和自适应、自组织的能力。为区分经典控制方法,将其称为智能控制方法。

3、强化学习是自主智能体在能够感知的环境中进行学习,选择能达到其目标的最优策略方法,并被广泛应用于机器人、工业自动化、竞技博弈等领域。同时,由于其面对复杂环境问题的自适应学习能力,在行为规划、自主探测等方面的应用较为突出。

4、但是,对于复杂场景,控制方法的实现非常依赖特征点选择的设置,并且对环境条件敏感,虽然可利用深度学习对环境进行状态抽象并作为强化学习算法的状态输入,但对于高维状态或动作空间,如何对特征信息进行提取,仍然是一大难点。而且,深度神经网络的复杂性和控制动作策略的复杂性制约着算法的学习速率,智能机器人动作的控制策略与优化方法还尚待进一步研究,如何有效的建立智能机器人目标状态到控制动作的关系模型是一个重点难题。

5、机器人控制中的相似域迁移旨在加速相同类型的下游任务训练,其中技能学习是一个很有潜力的领域。但是,目前的技能学习仍然在技能多样性上有所不足,或者学习到的技能都比较简单,比较难以完成复杂的任务。


技术实现思路

1、为了解决现有技术中的问题,本专利技术提供一种基于扩散模型和拉普拉斯表征的双层技能学习方法和装置,以提升机器人技能学习的多样性和复杂程度。

2、第一方面,本专利技术实施例提供了一种基于扩散模型和拉普拉斯表征的双层技能学习方法,包括:

3、s1、使用扩散模型作为策略网络对机器人进行低级技能训练,以得到的训练好的低级技能策略和状态表征网络;

4、s2、根据训练好的低级技能策略和状态表征网络,通过使用扩散模型进行环境建模对机器人进行高级技能训练,以得到训练好的高级技能策略和环境模型。

5、可选的,所述s1包括:

6、s11、从贝塔分布p(g)中随机采样机器人低级技能gt;

7、s12、将(st,gt)看作联合状态,基于机器人的低级技能策略执行l步;

8、其中:st代表机器人在某一时刻t的状态信息;at代表机器人在某一时刻t采取的动作;l为对于每个低级技能gt机器人执行的动作数量;

9、s13、重复执行s11和s12一定次数,以得到机器人运动轨迹并进行储存;

10、s14、使用内在奖励函数训练价值网络q、使用扩散模型作为动作策略时对应的第一损失函数训练低级技能策略,以及使用基于拉普拉斯的第二损失函数训练状态表征网络。

11、可选的,所述内在奖励函数为:

12、

13、其中:为一个gt的执行时间长度t内状态变化量的平均值。

14、4.根据权利要求1所述的方法,其特征在于,所述第一损失函数为:

15、

16、其中:α为温度系数,αi为扩散模型的参数,zθ为扩散模型中的噪声预测模型,i表示时间步,zi为标准高斯噪声。

17、可选的,所述第二损失函数为:

18、

19、其中:φlpr为状态编码器;βlpr为拉格朗日乘子,s和s’为从状态转移分布p中采样的状态对。

20、可选的,所述s2包括:

21、s21、加载s1中训练好的低级技能策略和状态表征网络;

22、s22、从高斯分布p(u)中采样u;

23、s23、机器人通过探索策略获得目标gt,通过低级技能策略获得动作at;

24、s24、重复步骤s23,得到机器人轨迹并储存在缓存区内;

25、s25、在已得到的机器人轨迹基础上,基于限制生成轨迹长度函数生成长度为k的短轨迹,并加入缓存区内;

26、s26、使用内在奖励函数更新判别器网络、探索策略参数和高级技能策略;

27、s27、使用基于扩散模型的损失函数更新环境模型。

28、可选的,所述限制生成轨迹长度函数为:

29、

30、其中επ为策略偏移误差,εm'为模型误差,rmax为环境最大回报,γ为衰减因子。

31、可选的,所述内在奖励函数为:

32、

33、为探索策略、为高级技能策略,pφ为轨迹编码器,r(z)为高斯分布,z为轨迹s0:t的编码表示。

34、可选的,所述基于扩散模型的损失函数为:

35、

36、其中,θmodel为扩散模型。

37、第二方面,本专利技术实施例还提供一种机器人控制的双层技能学习装置,包括:

38、低级技能训练模块,用于使用扩散模型进行环境建模对机器人进行低级技能训练,以得到的训练好的低级技能策略和状态表征网络;

39、高级技能训练模块,用于根据训练好的低级技能策略和状态表征网络,通过使用扩散模型进行环境建模对机器人进行高级技能训练,以得到训练好的高级技能策略和环境模型。

40、本专利技术通过建立基于注意力机制的智能机器人动作控制与优化方法,利用注意力模型压缩状态空间,建立智能体合理的内部映射关系;同时针对智能机器人场景任务的相似度,充分利用先前经验和策略,学习最佳的机器人动作控制策略,在不同的子任务上迁移智能机器人的学习经验,提高学习的效率,同时避免过度学习。主要的有益效果如下:

41、(1)传统技能学习方法仅训练一次技能,本专利技术在预训练技能阶段分为了两个部分:低级技能训练(环境线性化器训练)以及高级技能训练。相比较于一次的技能训练,基于低级技能训练出的高级技能更加平稳;

42、(2)相较于使用高斯分布作为策略网络,本专利技术使用扩散模型作为低级技能的策略网络。由于扩散模型能够捕捉到更加复杂的分布,其训练过程要比使用高斯分布更加迅速且高效;

43、(3)在基于低级技能训练高级技能的过程中,通过使用扩散模型进行环境建模,减少了智能体与真实环境交互的次数,加速了训练过程;

44、(4)在训练低级技能时,使用拉普拉斯图进行状态编码,使得状态间距离加入了状态转移概率的影响,更好地训练出连贯且有意义的技能。

本文档来自技高网...

【技术保护点】

1.一种基于扩散模型和拉普拉斯表征的双层技能学习方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述S1包括:

3.根据权利要求1所述的方法,其特征在于,所述内在奖励函数为:

4.根据权利要求1所述的方法,其特征在于,所述第一损失函数为:

5.根据权利要求1所述的方法,其特征在于,所述第二损失函数为:

6.根据权利要求1所述的方法,其特征在于,所述S2包括:

7.根据权利要求6所述的方法,其特征在于,所述限制生成轨迹长度函数为:

8.根据权利要求7所述的方法,其特征在于,所述内在奖励函数为:

9.根据权利要求8所述的方法,其特征在于,所述基于扩散模型的损失函数为:

10.一种机器人控制的双层技能学习装置,其特征在于,包括:

【技术特征摘要】

1.一种基于扩散模型和拉普拉斯表征的双层技能学习方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述s1包括:

3.根据权利要求1所述的方法,其特征在于,所述内在奖励函数为:

4.根据权利要求1所述的方法,其特征在于,所述第一损失函数为:

5.根据权利要求1所述的方法,其特征在于,所述第二损失函数为:

<...

【专利技术属性】
技术研发人员:徐梓淮
申请(专利权)人:徐梓淮
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1