一种基于CRNN解决拼图任务的自监督学习方法技术

技术编号：30320471 阅读：28 留言：0更新日期：2021-10-09 23:36

本发明专利技术提出了一种基于CRNN解决拼图任务的自监督学习方法，该方法包括：数据构建步骤，将图片统一放缩大小后划分为互不重叠的9块，重新排序后生成拼图任务的样本；拼图任务网络模型设计与训练步骤，使用拼图任务样本数据训练AlexNet与Bi

全部详细技术资料下载

【技术实现步骤摘要】
一种基于CRNN解决拼图任务的自监督学习方法

[0001]本专利技术属于计算机视觉
，具体涉及了一种基于CRNN解决拼图任务的自监督学习方法。

技术介绍

[0002]近年来，得益于计算能力的不断提高和数据量的不断扩大，深度神经网络得到了迅猛的发展，其技术应用已经渗透到人们的日常生活中。由于其强大的学习各层次视觉特征的能力，深度神经网络已经成为目标检测、语义分割、图像分类等计算机视觉任务的基本结构。
[0003]在解决各类计算机视觉任务时，人们通常将从大型数据集(如ImageNet)上训练得到的模型作为预训练模型，微调其网络参数来解决目标任务。这样做的原因在于，从大型数据集上学习到的网络参数提供了一个很好的起点，使得网络能够在其他任务上收敛得更快；并且，当目标任务的数据集较小时，从大型数据集上学习到的层次特征能够有效减小过拟合的风险。然而，大型数据集的收集和标注是耗时且昂贵的，图像数据集如ImageNet数据集包含了130 多万张1000种类别的人为标注的图片，视频数据集如Kinetics数据集包含了500000条时长为10秒左右的视频，这些数据集的构建占用了人们大量的时间和精力。为了避免耗时且昂贵的数据标注，各种自监督学习方法被提出，这类方法能够从大型的未标注的图像和视频数据集中学习视觉特征，其中最流行的方法是让网络先根据借口任务pretext task学习视觉特征，再将得到的网络参数迁移到目标任务上进行微调。在借口任务中，标签可以通过研究人员设计并通过计算机自动产生，从而避免了数据标注耗时费力的问题。...

【技术保护点】

【技术特征摘要】
1.一种基于CRNN解决拼图任务的自监督学习方法，其特征在于，所述方法包括下列步骤：S1、数据构建，使用全排列随机排序的方法，计算机生成数字1
‑
9的全排列，对于ImageNet数据集中的图片，统一放缩大小为225
×
225，并分割成互不重叠的3
×
3块，拼图块的编号自上而下、自左向右对应为1
‑
9，随机挑选9！排列方式中的一种作为标签，并依此重新排序拼图块作为样本；S2、拼图任务网络模型设计与训练，使用AlexNet作为基础结构，将其全连接层改为3层Bi
‑
LSTM，得到拼图任务网络，将拼图任务训练样本输入网络，通过优化预测的拼图块位置标签与真实的拼图块位置标签之间的相似度，更新网络权重，实现拼图任务网络模型的收敛；S3、图像分类、目标检测与语义分割任务网络设计与训练，图像分类任务的网络模型为AlexNet，目标检测与语义分割任务的网络模型为以AlexNet作为基础结构的Fast
‑
RCNN和FCN，使用从拼图任务中学习得到的模型参数进行初始化，在ImageNet和PASCAL VOC数据集上进行训练，得到收敛的图像分类、目标检...

【专利技术属性】
技术研发人员：林炯良，戴宪华，
申请(专利权)人：中山大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人