当前位置: 首页 > 专利查询>中山大学专利>正文

一种基于CRNN解决拼图任务的自监督学习方法技术

技术编号:30320471 阅读:28 留言:0更新日期:2021-10-09 23:36
本发明专利技术提出了一种基于CRNN解决拼图任务的自监督学习方法,该方法包括:数据构建步骤,将图片统一放缩大小后划分为互不重叠的9块,重新排序后生成拼图任务的样本;拼图任务网络模型设计与训练步骤,使用拼图任务样本数据训练AlexNet与Bi

【技术实现步骤摘要】
一种基于CRNN解决拼图任务的自监督学习方法


[0001]本专利技术属于计算机视觉
,具体涉及了一种基于CRNN解决拼图任务的自监督学习方法。

技术介绍

[0002]近年来,得益于计算能力的不断提高和数据量的不断扩大,深度神经网络得到了迅猛的发展,其技术应用已经渗透到人们的日常生活中。由于其强大的学习各层次视觉特征的能力,深度神经网络已经成为目标检测、语义分割、图像分类等计算机视觉任务的基本结构。
[0003]在解决各类计算机视觉任务时,人们通常将从大型数据集(如ImageNet)上训练得到的模型作为预训练模型,微调其网络参数来解决目标任务。这样做的原因在于,从大型数据集上学习到的网络参数提供了一个很好的起点,使得网络能够在其他任务上收敛得更快;并且,当目标任务的数据集较小时,从大型数据集上学习到的层次特征能够有效减小过拟合的风险。然而,大型数据集的收集和标注是耗时且昂贵的,图像数据集如ImageNet数据集包含了130 多万张1000种类别的人为标注的图片,视频数据集如Kinetics数据集包含了500000条时长为10秒左右的视频,这些数据集的构建占用了人们大量的时间和精力。为了避免耗时且昂贵的数据标注,各种自监督学习方法被提出,这类方法能够从大型的未标注的图像和视频数据集中学习视觉特征,其中最流行的方法是让网络先根据借口任务pretext task学习视觉特征,再将得到的网络参数迁移到目标任务上进行微调。在借口任务中,标签可以通过研究人员设计并通过计算机自动产生,从而避免了数据标注耗时费力的问题。
[0004]目前,人们提出了多种借口任务来进行自监督学习,其中拼图任务jigsaw puzzle是其中一个很流行的方法,该方法将图片分为互不相干的几块,通过深度神经网络来识别它们的位置关系。然而,目前的拼图任务的解决方案将其作为一个分类问题,文献“H.

Y.Lee,J.

B. Huang,M.Singh,and M.

H.Yang,“Unsupervised representation learning by sorting sequences,”inICCV,pp.667

676,IEEE,2017”将图片分为3
×
3个拼图块,从9!排序类别中根据汉明距离挑选出1000种来进行识别,这使得训练出来的拼图模型无法识别所有的拼图类别;并且,文献仅使用了卷积层与全连接层构建拼图任务网络,没有使用擅于处理序列信息的循环卷积网络,这使得拼图任务网络无法捕捉拼图块之间的位置关系,不利于模型从拼图任务中学习到更加通用的视觉特征。

技术实现思路

[0005]针对上述不足,本专利技术提出了一种基于CRNN解决拼图任务的自监督学习方法。该方法采用卷积神经网络CNN与循环神经网络RNN相结合的方式构建拼图任务网络,利用CNN 提取图片视觉特征的能力来提取拼图块的视觉特征,利用RNN处理序列信息的能力提取拼图块之间的位置关系,使得模型既能直接预测拼图任务中的各个拼图块的位置,又能学习
到更加通用的视觉特征。本专利技术采用的技术方案为:一种基于CRNN解决拼图任务的自监督学习方法,该方法包括:数据构建步骤、拼图任务网络模型设计与训练步骤、图像分类、目标检测与语义分割任务网络设计与训练步骤;
[0006]具体的,该方法的实现步骤如下:
[0007]S1、数据构建:使用全排列随机排序的方法。计算机生成数字1

9的全排列,对于ImageNet 数据集中的每张图片,先将其统一放缩大小到225
×
225的大小,再将它们分割成互不重叠的 3
×
3块并编号为1

9,由计算机从9!种排列方式中随机挑选一种排列方式,并按照该排列方式将拼图块重新排列,重新排列后的拼图块作为样本,挑选的排列方式作为标签,从而得到拼图任务的数据,理论上每张图片能够得到9!种拼图方式,然而为了节省存储空间及训练时间,每张图片仅采用一种拼图方式,从而得到的数据集的大小为130M;
[0008]S2、拼图任务网络模型设计与训练:该模型以AlexNet网络作为基本结构,将其全连接层以3层的双向长短时记忆Bi

LSTM网络代替;网络的输入大小为B
×9×3×
75
×
75,其中B为训练样本的批大小,9为9张拼图块,3为图像RGB三通道,75
×
75为拼图块大小,网络的输出大小为B
×
9,对应于输入样本的每张拼图块的位置;使用均方差损失函数来缩小预测的拼图块位置与真实的拼图块位置的差别,不断更新网络的权重,最终获得收敛的网络;
[0009]S3、图像分类、目标检测与语义分割任务网络设计与训练:使用AlexNet及AlexNet作为基础结构的Fast

RCNN和FCN作为图像分类、目标检测与语义分割任务的网络模型,使用从拼图任务中学习得到的模型参数对其特征提取层进行初始化,在ImageNet、PASCAL VOC 数据集上进行训练,得到其在图像分类、目标检测与语义分割任务上的性能表现。
[0010]进一步地,步骤S1中,数据构建步骤如下:
[0011]S11、计算机生成数字1

9的9!种不同的排列方式;
[0012]S12、读取ImageNet数据集中的图片,并统一放缩大小为225
×
225;
[0013]S13、随机挑选S11中的排列方式作为标签;
[0014]S14、将每张分割成互不重叠的3
×
3块并编号1

9,从而得到9张75
×
75大小的不同的拼图块,按照挑选的排列方式重新排序9张拼图块,得到样本;
[0015]进一步地,步骤S2中,拼图任务网络模型设计与训练的具体训练步骤如下:
[0016]S21、将AlexNet网络的全连接层改为3层Bi

LSTM,各层的输出维度为512、1024、1,得到拼图任务网络,该网络使用Pytorch实现;
[0017]S22、获取拼图任务的训练数据;
[0018]S23、将训练样本输入拼图任务网络,得到预测的9个拼图块的位置;
[0019]S24、使用均方误差损失函数计算预测的9个拼图块的位置标签与真实的9个拼图块的位置标签的损失值,更新拼图任务网络的参数;
[0020]S25、重复S22至S24步骤,直到达到训练次数,完成训练并保存此时的拼图任务网络;
[0021]进一步地,步骤S3中,图像分类、目标检测与语义分割任务网络设计与训练步骤如下:
[0022]S31、图片分类网络使用AlexNet,目标检测与语义分割任务网络使用以AlexNet作为基础结构的Fast

RCNN与FCN,并使用拼图任务网络模型本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于CRNN解决拼图任务的自监督学习方法,其特征在于,所述方法包括下列步骤:S1、数据构建,使用全排列随机排序的方法,计算机生成数字1

9的全排列,对于ImageNet数据集中的图片,统一放缩大小为225
×
225,并分割成互不重叠的3
×
3块,拼图块的编号自上而下、自左向右对应为1

9,随机挑选9!排列方式中的一种作为标签,并依此重新排序拼图块作为样本;S2、拼图任务网络模型设计与训练,使用AlexNet作为基础结构,将其全连接层改为3层Bi

LSTM,得到拼图任务网络,将拼图任务训练样本输入网络,通过优化预测的拼图块位置标签与真实的拼图块位置标签之间的相似度,更新网络权重,实现拼图任务网络模型的收敛;S3、图像分类、目标检测与语义分割任务网络设计与训练,图像分类任务的网络模型为AlexNet,目标检测与语义分割任务的网络模型为以AlexNet作为基础结构的Fast

RCNN和FCN,使用从拼图任务中学习得到的模型参数进行初始化,在ImageNet和PASCAL VOC数据集上进行训练,得到收敛的图像分类、目标检...

【专利技术属性】
技术研发人员:林炯良戴宪华
申请(专利权)人:中山大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1