System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 用于星上神经网络的微调方法、装置、设备及存储介质制造方法及图纸_技高网

用于星上神经网络的微调方法、装置、设备及存储介质制造方法及图纸

技术编号:40360104 阅读:9 留言:0更新日期:2024-02-09 14:46
本发明专利技术提供了一种用于星上神经网络的微调方法、装置、设备及存储介质,可以应用于卫星技术领域。该方法包括:S1,利用低秩模块和预训练的神经网络,构建待微调的神经网络;S2,在微调过程中,保持所述待微调的神经网络的权重不变,利用所述低秩模块计算梯度;S3,将所述权重和所述梯度相加,生成更新参数;S4,利用所述更新参数优化所述待微调的神经网络;S5,重复执行S2‑S4,直至所述待微调的神经网络达到最优收敛结果,可极大地降低调参成本。

【技术实现步骤摘要】

本专利技术涉及卫星领域,尤其涉及一种用于星上神经网络的微调方法、装置、设备及存储介质


技术介绍

1、随着卫星技术的迅速发展,卫星在通信、遥感、导航等领域的应用变得越来越广泛,同时,边缘计算终端的性能提升,也使得卫星上逐渐具备了星上计算的能力,相关模型在诸多下游任务中发挥着关键作用。然而,卫星神经网络模型性能的在轨更新仍然面临一系列挑战。星上神经网络需要又好又快地更新,当前联邦学习方法已经解决了卫星数据壁垒、数据分散的问题,已有相关方法使得卫星终端神经网络模型性能保持很好的泛化性能。但是,星上计算资源有限,如何通过适当的参数微调策略,降低星载终端网络的更新压力,加快终端网络的更新速率,成为当前遥感领域的重要研究课题之一,具有重大现实意义。


技术实现思路

1、鉴于上述问题,本专利技术提供了用于星上神经网络的微调方法、装置、设备及存储介质。

2、根据本专利技术的第一个方面,提供了一种用于星上神经网络的微调方法,包括:

3、s1,利用低秩模块和预训练的神经网络,构建待微调的神经网络;

4、s2,在微调过程中,保持所述待微调的神经网络的权重不变,利用所述低秩模块计算梯度;

5、s3,将所述权重和所述梯度相加,生成更新参数;

6、s4,利用所述更新参数优化所述待微调的神经网络;

7、s5,重复执行s2-s4,直至所述待微调的神经网络达到最优收敛结果。

8、在一些实施例中,所述低秩模块用于在计算梯度的过程中负责前后向传播。

9、在一些实施例中,所述利用低秩模块和预训练的神经网络,构建待微调的神经网络包括:

10、在所述预训练的神经网络包括特征提取层的情况下,在所述特征提取层的旁路设置所述低秩模块,构建待微调的神经网络;

11、在所述预训练的神经网络包括前向传播层和划窗注意力层的情况下,在所述前向传播层和划窗注意力层的旁路均设置所述低秩模块,构建待微调的神经网络。

12、在一些实施例中,所述利用所述低秩模块计算梯度包括:

13、将输入给低秩模块的矩阵分解为多个矩阵,确定所述多个矩阵中各矩阵的维度;

14、通过计算所述各矩阵的反向传播结果,计算所述各矩阵的梯度。

15、在一些实施例中,所述预训练的神经网络的训练数据来源于卫星,所述方法还包括:

16、对于采用来源于不同卫星的训练数据的预训练的神经网络,构建针对不同卫星的待微调的神经网络。

17、在一些实施例中,所述方法还包括:

18、将不同卫星的待微调的神经网络的低秩模块所计算出的梯度进行共享。

19、在一些实施例中,所述将不同卫星的待微调的神经网络的低秩模块所计算出的梯度进行共享包括:

20、获取每个卫星的待微调的神经网络的低秩模块的矩阵分解得到所述多个矩阵中的指定矩阵,所述指定矩阵的参数量在所述多个矩阵中最少;

21、将所有所述指定矩阵进行加权计算,得到加权计算结果;

22、将所述加权计算结果返回给所述每个卫星的待微调的神经网络的低秩模块,作为所述指定矩阵进行共享。

23、本专利技术的第二方面提供了一种用于星上神经网络的微调装置,包括:

24、构建模块,用于利用低秩模块和预训练的神经网络,构建待微调的神经网络;

25、计算模块,用于在微调过程中,保持所述待微调的神经网络的权重不变,利用所述低秩模块计算梯度;

26、相加模块,用于将所述权重和所述梯度相加,生成更新参数;

27、优化模块,用于利用所述更新参数优化所述待微调的神经网络;

28、重复模块,用于重复执行计算模块、相加模块和优化模块,直至所述待微调的神经网络达到最优收敛结果。

29、本专利技术的第三方面提供了一种电子设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序,其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得一个或多个处理器执行上述方法。

30、本专利技术的第四方面还提供了一种计算机可读存储介质,其上存储有可执行指令,该指令被处理器执行时使处理器执行上述方法。

31、根据本专利技术提供的用于星上神经网络的微调方法、装置、设备和介质,通过构建待微调的神经网络,也即引入低秩联合微调网络解决了这一问题,减少星载终端网络的更新压力的同时,加快终端网络的更新速率。通过在星上部署待微调的神经网络,利用梯度降维,对原有参数维数进行压缩、重构,实现星上网络基于很少的参数就能开展训练,提高模型的梯度信息传递效率和调参的灵活性。通过在星上部署的神经网络层内并联微调分支,实现了在星上梯度计算的同时,不需要原先大体量参数介入计算,而是通过并行的微调分支低秩模块完成这一过程,极大地降低了调参成本。通过星间通信机制,实现了星间梯度共享的同时,还能实现参数的联合更新,提高了星间网络的泛化性能。

本文档来自技高网...

【技术保护点】

1.一种用于星上神经网络的微调方法,其特征在于,包括:

2.根据权利要求1所述的用于星上神经网络的微调方法,其特征在于,所述低秩模块用于在计算梯度的过程中负责前后向传播。

3.根据权利要求1所述的用于星上神经网络的微调方法,其特征在于,所述利用低秩模块和预训练的神经网络,构建待微调的神经网络包括:

4.根据权利要求1所述的用于星上神经网络的微调方法,其特征在于,所述利用所述低秩模块计算梯度包括:

5.根据权利要求4所述的用于星上神经网络的微调方法,其特征在于,所述预训练的神经网络的训练数据来源于卫星,所述方法还包括:

6.根据权利要求5所述的用于星上神经网络的微调方法,其特征在于,所述方法还包括:

7.根据权利要求6所述的用于星上神经网络的微调方法,其特征在于,所述将不同卫星的待微调的神经网络的低秩模块所计算出的梯度进行共享包括:

8.一种用于星上神经网络的微调装置,其特征在于,包括:

9. 一种电子设备,其特征在于,包括:

10.一种计算机可读存储介质,其特征在于,其上存储有可执行指令,该指令被处理器执行时使处理器执行根据权利要求1~7中任一项所述的方法。

...

【技术特征摘要】

1.一种用于星上神经网络的微调方法,其特征在于,包括:

2.根据权利要求1所述的用于星上神经网络的微调方法,其特征在于,所述低秩模块用于在计算梯度的过程中负责前后向传播。

3.根据权利要求1所述的用于星上神经网络的微调方法,其特征在于,所述利用低秩模块和预训练的神经网络,构建待微调的神经网络包括:

4.根据权利要求1所述的用于星上神经网络的微调方法,其特征在于,所述利用所述低秩模块计算梯度包括:

5.根据权利要求4所述的用于星上神经网络的微调方法,其特征在于,所述预训练的神经网络的训练数...

【专利技术属性】
技术研发人员:付琨孙显王智睿赵良瑾成培瑞陈凯强
申请(专利权)人:中国科学院空天信息创新研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1