图像编码器的自监督训练方法、装置及终端设备制造方法及图纸

技术编号：37713027 阅读：21 留言：0更新日期：2023-06-02 00:07

本申请适用于神经网络技术领域，提供了一种图像编码器的自监督训练方法，所述方法包括：获取样本图像，对样本图像进行随机裁剪处理，以生成样本图像的第一局部图像与第二局部图像，分别将第一局部图像与第二局部图像，输入参考图像重建模型进行交叉重建，以生成第一局部图像对应的第一重建结果及第二局部图像对应的第二重建结果，根据第一局部图像与第一重建结果之间的差异、及第二局部图像与第二重建结果之间的差异，确定参考图像重建模型的损失值，根据损失值对参考图像重建模型的网络参数进行更新，直至损失值小于损失值阈值时，将更新后的参考图像重建模型的编码器确定为训练完成的图像特征编码器，提高了下游任务的准确度。确度。确度。

全部详细技术资料下载

【技术实现步骤摘要】
图像编码器的自监督训练方法、装置及终端设备

[0001]本申请属于神经网络
，尤其涉及一种图像编码器的自监督训练方法、装置、终端设备及计算机可读存储介质。

技术介绍

[0002]近年来，深度神经网络在计算机视觉领域取得了举世瞩目的进展，基于深度神经网络的算法在图像识别、物体检测、图像分割等任务上大大优于传统的视觉算法。这类算法的核心在于海量的训练数据，训练出一个高性能的神经网络模型。然而，训练数据的人工标注标签是昂贵的，因此，怎么利用几乎无穷无尽的廉价无标注数据进行网络训练，是学术界和工业界都十分关心的问题。
[0003]相关技术中，可以通过图像变化的方式实现图像编码器的自监督学习，比如将图像进行投影变换，以原图和变换后的图像作为输入，利用孪生网络预测两个输入图像之间的投影变换关系。然而，基于图像变换的自监督学习方法，与实际应用的任务差异较大，因此任务迁移能力差，影响了下游任务的准确度。

技术实现思路

[0004]本申请实施例提供的图像编码器的自监督训练方法、装置及终端设备，可以解决任务迁移能力...

【技术保护点】

【技术特征摘要】
1.一种图像编码器的自监督训练方法，其特征在于，包括：获取样本图像；对所述样本图像进行随机裁剪处理，以生成所述样本图像的第一局部图像与第二局部图像；将所述第一局部图像与所述第二局部图像，输入参考图像重建模型进行交叉重建，以生成所述第一局部图像对应的第一重建结果及所述第二局部图像对应的第二重建结果；根据所述第一局部图像与所述第一重建结果之间的差异、及所述第二局部图像与所述第二重建结果之间的差异，确定所述参考图像重建模型的损失值；根据所述损失值对所述参考图像重建模型的网络参数进行更新，并利用更新后的参考图像重建模型继续进行训练，直至所述更新后的参考图像重建模型的损失值小于损失值阈值时，将所述更新后的参考图像重建模型的编码器确定为训练完成的图像特征编码器。2.如权利要求1所述的方法，其特征在于，所述参考图像重建模型包括编码器单元和解码器单元，所述将所述第一局部图像与所述第二局部图像，输入参考图像重建模型进行交叉重建，以生成所述第一局部图像对应的第一重建结果及所述第二局部图像对应的第二重建结果，包括：将所述第一局部图像与所述第二局部图像分别划分为多个图像块；对所述第一局部图像与所述第二局部图像对应的多个图像块进行预处理，生成所述第一局部图像与所述第二局部图像对应的各可见图像块；分别将所述第一局部图像对应的各可见图像块和所述第二局部图像对应的各可见图像块，输入所述编码器单元，以生成所述第一局部图像对应的第一特征和所述第二局部图像对应的第二特征；根据所述第一局部图像与所述第二局部图像之间的位置关系，生成所述第一局部图像相对于所述第二局部图像的第一相对位置编码信息，以及所述第二局部图像相对于所述第一局部图像的第二相对位置编码信息；根据所述第一相对位置编码信息和所述第二特征，生成第一待解码特征；根据所述第二相对位置编码信息和所述第一特征，生成第二待解码特征；将所述第一待解码特征输入所述解码器单元进行解码处理，以生成所述第一局部图像对应的第一重建结果；将所述第二待解码特征输入所述解码器单元进行解码处理，以生成所述第二局部图像对应的第二重建结果。3.如权利要求2所述的方法，其特征在于，所述根据所述第一局部图像与所述第二局部图像之间的位置关系，生成所述第一局部图像相对于所述第二局部图像的第一相对位置编码信息，以及所述第二局部图像相对于所述第一局部图像的第二相对位置编码信息，包括：根据所述第一局部图像与所述第二局部图像之间的相对位置、尺寸比例及所述第二局部图像的位置编码信息，确定所述第一局部图像相对于所述第二局部图像的第一相对位置编码信息；根据所述第二局部图像与所述第一局部图像之间的相对位置、尺寸比例及所述第一局部图像的位置编码信息，确定所述第二局部图像相对于所述第一局部图像的第二相对位置编码信息。
4.如权利要求2所述的方法，其特征在于，所述根据所述第一相对位置编码信息和所述第二特征，生成第一待解码特征，包括：根据所述第一局部图像包括的图像块的数量及所述第二特征的特征维度，随机生成所述第一局部图像对应的第一掩膜令牌；将所述第一局部图像对应的第一掩膜令牌与所述第二特征进...

【专利技术属性】
技术研发人员：林丰，胡文泽，王孝宇，陈宁，
申请(专利权)人：深圳云天励飞技术股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人