应用于机械臂控制的视觉强化学习测试时适应方法技术

技术编号：41327885 阅读：6 留言：0更新日期：2024-05-13 15:05

本发明专利技术涉及一种应用于机械臂控制的视觉强化学习测试时适应方法，包括：S1、获取经过训练的用于机械臂控制的智能体；S2、将智能体置于实际环境中作为当前智能体，并构建知识库；S3、当前智能体从实际环境中获取当前图像，当前图像存入知识库中，智能体输出当前动作；S4、判断知识库中的图像是否达到批次阈值，若否，则返回S3，反之，进行前向传播，更新当前智能体的各个批归一化层；S5、重复S3～S4，得到各个批归一化层的结果均值和结果方差；S6、将结果均值和结果方差与均值和方差的初始值进行混合，得到混合均值和混合方差。与现有技术相比，本发明专利技术具有提高强化学习的环境适用性等优点。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及机械臂控制的，尤其是涉及应用于机械臂控制的视觉强化学习测试时适应方法。

技术介绍

1、在利用训练完成的智能体进行机械臂的控制的过程中，当进入新的视觉环境时，为了提升视觉强化学习智能体的泛化性，可以采用各种精心设计的数据增强扩大智能体在训练过程中的观察范围，或通过某些自监督方法(对比学习等)的手段。然而，常规的领域适应算法在强化学习的应用范围内常常受限。首先，在新环境中进行微调(fine-tuning)常常是不现实的，为新环境制作密集的奖励(reward)是一项工程量浩大的事情，尤其在实时性很高的场景下。而旧环境中的信息常常也不可能被带到新的场景中进行适应，比如在诸如无人机这样的小容量平台上，大量的数据不可能被搭载。因此，如何设计一个仅利用新环境中的视觉信息进行适应的“完全测试时适应”方案，是一个很有价值的课题。

2、在视觉深度学习领域，现有技术提出完全测试时适应的算法实现新环境的适应，但是，在深度学习的设定中，模型常常可以任意获取数据集中的数据，从而构成批次。而在强化学习中，由于强化学习问题的马尔可夫性质，智能体往往是在给出一个反馈之后，才能从环境中获得一次观察结果，这极大地限制了依据bn层更改进行测试时适应的方法，完全测试时适应方法无法和强化学习问题结合，在机械臂的控制的过程中，训练完成的智能体无法很好地适应新环境，智能体输出的策略的效果较差。

技术实现思路

1、本专利技术的目的就是为了提高用于机械臂控制的智能体的新环境适用性而提供的一种应用于机械臂控制

2、本专利技术的目的可以通过以下技术方案来实现：

3、一种应用于机械臂控制的视觉强化学习测试时适应方法，方法在离线状态下执行，所述方法包括：

4、s1、获取经过训练的用于机械臂控制的智能体，所述智能体包括图像处理网络和多层感知器，所述图像处理网络包括多个批归一化层，获取每个批归一化层的均值和方差的初始值；

5、s2、将s1获取的智能体置于实际环境中作为当前智能体，并构建知识库，所述知识库用于存储智能体获取的当前图像；

6、s3、当前时刻t对应的当前智能体从实际环境中获取当前图像，当前图像存入知识库中，智能体输出当前动作，机械臂执行所述当前动作，环境反馈新的图像；

7、s4、判断知识库中的图像是否达到批次阈值，若否，则返回s3，反之，从知识库中随机选择一个批次大小的图像作为传播图像进行前向传播，并以滑动平均的方式更新当前智能体的各个批归一化层，得到t+1时刻的批归一化层的均值和方差；

8、s5、将更新批归一化层后的智能体作为新的当前智能体，更新当前时刻，重复s3～s4，直至各个批归一化层的均值和方差收敛，设此时的时刻为t得到各个批归一化层的结果均值μt和结果方差

9、s6、将结果均值和结果方差与均值和方差的初始值进行混合，得到混合均值和混合方差，将混合均值和混合方差对应的批归一化层对应的智能体作为结果智能体，所述结果智能体继续获取所述实际环境的实际图像，结果智能体输出动作，机械臂执行动作。

10、进一步地，所述更新当前智能体的各个批归一化层具体为：更新各个批归一化层的均值和方差：

11、μt+1＝γμ+(1-γ)μt

12、

13、其中，μt+1和表示更新后的t+1时刻的批归一化层的均值和方差，γ表示滑动平均更新比例，μ和σ2是传播图像在批归一化层处计算得到的均值和方差，μt和σ2t表示t时刻批归一化层的均值和方差值，t＝0时，μ0＝μs，σ20＝σ2s，其中μs和分别表示批归一化层的均值和方差的初始值。

14、进一步地，混合均值和混合方差为：

15、

16、

17、其中，μt和表示收敛的批归一化层的均值和方差，和分别表示混合均值和混合方差，α为超参数，μs和分别表示批归一化层的均值和方差的初始值。

18、进一步地，将当前图像存入知识库中时，若此时知识库中的图像数量等于图像数量阈值，则将进入知识库中时间最早的图像从知识库中删除，再将当前图像存入知识库中。

19、本专利技术的另一方面，还提出一种基于上述的应用于机械臂控制的视觉强化学习测试时适应方法的用于机械臂控制的视觉强化学习在线测试时适应方法，方法包括：

20、s1、获取经过训练的用于机械臂控制的智能体，所述智能体包括图像处理网络和多层感知器，所述图像处理网络包括多个批归一化层，获取每个批归一化层的均值和方差的初始值；

21、s2、将s1获取的智能体置于实际环境中作为当前时刻t下的当前智能体；

22、s3、当前智能体从实际环境中获取当前图像；

23、s4、对当前图像进行扩充，得到一个批次大小的图像作为传播图像，对传播图像进行前向传播，计算传播图像在各个批归一化层中的均值和方差，并分别将计算得到的均值和方差作为结果均值和结果方差；

24、s5、将结果均值和结果方差与均值和方差的初始值进行混合，得到混合均值和混合方差，将混合均值和混合方差对应的批归一化层对应的智能体作为结果智能体，所述结果智能体根据当前图像输出当前动作，机械臂执行当前动作，将结果智能体作为当前智能体，将当前时刻更新为t+1，重复s3～s5。

25、进一步地，混合均值和混合方差为：

26、

27、

28、其中，μt表示当前t时刻的传播图像在各个批归一化层中的均值和方差，α为超参数，和分别表示混合均值和混合方差，μs和分别表示批归一化层的均值和方差的初始值。

29、进一步地，所述对当前图像进行扩充的具体步骤为：

30、对当前图像进行复制，对所有复制的当前图像进行随机平移和随机颜色抖动。

31、进一步地，所述随机平移具体为：

32、设当前图像为h*w大小的rgb图像，其中h表示图像高度，w表示图像宽度，在当前图像的四周各延伸n个空白像素，延伸后的图像大小为(h+2*n)*(w+2*n)，延伸后的图像中截取h*w像素的图片作为随机平移后的图像。

33、进一步地，所述随机颜色抖动具体为：

34、随机改变所述随机平移后的图像的亮度、对比度、饱和度和色相，得到一个批次大小的图像。

35、进一步地，对当前图像进行复制后，得到的所有复制的当前图像的总数和一个批次大小相等。

36、与现有技术相比，本专利技术具有以下有益效果：

37、(1)本专利技术的在线测试时适应方法利用每张图片构造批次，在每个时间步t时，将构造的一个批次前向传播，并将该批次得到的均值方差和训练时得到的均值方差以一定比例混合，根据混合后的网络，前向传播计算输出的动作，通过扩展新环境中获取的图片批次，扩充新环境的观察结果的数量，再基于新环境的观察结果优化智能体的归一化层，提高智能体对于新环境的适用性。

38、(2)本专利技术的离线测试时本文档来自技高网...

【技术保护点】

1.一种应用于机械臂控制的视觉强化学习测试时适应方法，其特征在于，方法在离线状态下执行，所述方法包括：

2.根据权利要求1所述的一种应用于机械臂控制的视觉强化学习测试时适应方法，其特征在于，所述更新当前智能体的各个批归一化层具体为：更新各个批归一化层的均值和方差：

3.根据权利要求2所述的一种应用于机械臂控制的视觉强化学习测试时适应方法，其特征在于，混合均值和混合方差为：

4.根据权利要求1所述的一种应用于机械臂控制的视觉强化学习测试时适应方法，其特征在于，将当前图像存入知识库中时，若此时知识库中的图像数量等于图像数量阈值，则将进入知识库中时间最早的图像从知识库中删除，再将当前图像存入知识库中。

5.一种基于权利要求1～4中任一项所述的应用于机械臂控制的视觉强化学习测试时适应方法的用于机械臂控制的视觉强化学习在线测试时适应方法，其特征在于，方法包括：

6.根据权利要求5所述的一种应用于机械臂控制的视觉强化学习测试时适应方法，其特征在于，混合均值和混合方差为：

7.根据权利要求5所述的一种应用于机械臂控制的视觉

8.根据权利要求7所述的一种应用于机械臂控制的视觉强化学习测试时适应方法，其特征在于，所述随机平移具体为：

9.根据权利要求8所述的一种应用于机械臂控制的视觉强化学习测试时适应方法，其特征在于，所述随机颜色抖动具体为：

10.根据权利要求9所述的一种应用于机械臂控制的视觉强化学习测试时适应方法，其特征在于，对当前图像进行复制后，得到的所有复制的当前图像的总数和一个批次大小相等。

...

【技术特征摘要】

1.一种应用于机械臂控制的视觉强化学习测试时适应方法，其特征在于，方法在离线状态下执行，所述方法包括：

3.根据权利要求2所述的一种应用于机械臂控制的视觉强化学习测试时适应方法，其特征在于，混合均值和混合方差为：

5.一种基于权利要求1～4中任一项所述的应用于机械臂控制的视觉强化学习测试时适应方法的用于...

【专利技术属性】
技术研发人员：李伟，刘子昂，刘司澳，
申请(专利权)人：复旦大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人