一种基于伪标记和假数据识别的遥感图像分类方法技术

技术编号:37773696 阅读:11 留言:0更新日期:2023-06-06 13:40
本发明专利技术实施方式中的基于伪标记和真假数据识别的遥感图像分类方法,该框架使用人工伪标签作为未标记数据的标签,因此也可以使用标签训练未标记数据。针对模型可能对未标记数据分类错误的情况,提出了一种混合表示学习方法。混合不同的数据生成伪数据并利用所有数据可以克服伪标签的缺点。本发明专利技术创新地将伪标记算法与假数据识别算法相结合,使模型可以更全面与准确的学习数据的特征表示。同时,由伪标记带来的半监督学习算法,可以大大地减少实验的资源成本的消耗,以最小的代价完成目标。将所提的网络模型应用于半监督遥感图片数据的分类,能达到提升准确率的目的,实验结果验证了所提方法的有效性。了所提方法的有效性。了所提方法的有效性。

【技术实现步骤摘要】
一种基于伪标记和假数据识别的遥感图像分类方法


[0001]本专利技术涉及一种基于伪标记和假数据识别的遥感图像分类方法,该方法在遥感图像分类领域有着很好的应用。

技术介绍

[0002]在6G网络广泛应用的情况下,地空网络框架可以及时传输当前的地面图像信息,并应用这些信息自动执行许多任务。因此,对充分理解陆地场景图像的语义信息和准确识别分类的需求迅速增加。遥感图像场景分类Remote sensing image scene classification(RSISC)是利用一些方法将图像划分为自定义的类别,获取图像的语义信息。卷积神经网络Convolutional Network(CNN)依赖于许多高质量的标记数据集,在目标检测、语义分割和图像识别方面取得了相当大的成果。
[0003]遥感图像分类在许多应用领域中发挥着重要的作用。为了应对在训练过程中由于数据标签稀少而造成的成本昂贵等问题,半监督学习Semi

supervised learning(SSL)被引入其中。半监督学习使用特定比例的标记数据和大量无序和未知的未标记数据进行训练,降低了实验成本的要求,可以比监督方法获得更健壮的结果。在最近的半监督工作中,大多数使用了一致性正则Consistency Regularization和伪标签Pseudo

label。一致正则化认为分类器可以为初始信息和改进的输入输出相同的概率分布。通过这种方法,编码器可以学习干扰数据,提高鲁棒性。伪标签是一种训练模型预测未标记的数据并生成人工标签的方法,通过生成的人工标签模拟监督学习来进行指导训练。其应用的交叉熵(Cross Entropy)用于度量两个输出概率分布间的差异性信息,来修正模型预测的错误。
[0004]遥感图像分类方法可分三类:(1)监督方法:应用大量的标记数据来修正模型错误,指导模型训练。(2)半监督方法:联合标记数据与无标记数据,通过标记数据对模型预测进行修正,在应用更加大量的无标记数据学习特征。(3)无监督方法:应用极为大量的无标签数据,以绩效的成本去学习数据的有效特征。

技术实现思路

[0005]为了解决针对于图像分类领域中的遥感图像分类问题,本专利技术公开了一种基于伪标记和假数据识别的半监督遥感图像分类方法。
[0006](一)技术方案
[0007]遥感图像分类神经网络的框架使用Resnet

18神经网络组成。该网络主要由多个基础块不断叠加构成。每个基础块都由两个残差块进行连接,每个残差块由两个卷积层、两个激活层、两个BatchNorm层和一个短路连接层组成。构建并实现遥感图像模型包括以下具体步骤:
[0008]1.数据预处理阶段,通过使用pytorch代码,随机提取数据集中相应的数据组成新的数据集合。在原数据集中,所有数据都具有标签并根据类别划分集合。本专利技术将整体数据集划分为6:2:2的训练集、验证集、测试集。为了模拟真实世界的数据情况应用半监督算法,
本专利技术从所有训练数据中提取10%的数据量为其分配标签,剩余90%的数据抛弃它们的标签。最后分别形成两种数据集合。
[0009]步骤1_1生成数据集。
[0010]步骤如下:
[0011]考虑一个有N种数据的数据集X,
[0012]本专利技术从中抽取10%的数据量作为有标记数据X
l
,
[0013]这些数据的标签集Y,
[0014]那么无标记数据集X
u
,
[0015]2.数据输入阶段,通过代码读取原始数据集合后,将原始数据经过处理,重新修订大小为128*128。然后应用无标记原始数据集进行混合制作真假数据集。
[0016]步骤2_1将原始数据从datasets下的train文件夹中读出,根据所属的类别划分成train_label_dataset和train_unlabel_dataset两个数据集合。
[0017]步骤2_2将两个数据集合经过简单处理将大小修改成128*128,然后通过使用torch环境中的dataloader方法,将两个数据集合整合成乱序的、具有batch_size属性的train_label_dataloader和train_unlabel_dataloader两种数据集合。
[0018]步骤2_3将存在于train_unlabel_dataloader中的数据读出,根据utils文件夹下的mixdata.py方法进行数据混合。为其中每一张图片都随机抽取一张其他图片根据比例进行混合,从而生成假数据x
f
,生成x
f
的公式如下:
[0019][0020]步骤2_4将生成的假数据x
f
与相应的真数据连接在一起,并进行shuffle打乱,记录下打乱后相应位置的索引。生成真假数据集X
f
,公式如下:
[0021][0022]步骤2_5为连接后的真假数据设置相应的标签,真数据为1,假数据为0,应用记录下的索引对标签集进行相同次序的打乱,让两种数据可以一一对应。对真假标签Yf,其生成公式如下:
[0023]Y
f
=random({0,

0,1,

.,1}
2*90%*B
)
[0024]3.模型训练阶段,将数据集以6:2:2的比例拆分成训练集、验证集和测试集。训练数据作为模型训练的输入,经过模型的训练,得到优化后的模型。
[0025]步骤3_1将训练集数据和生成的真假数据集一起输入神经网络编码器encoder,获得数据的特征表示F。其公式如下:
[0026]F=encoder({X,X
f
})
[0027]步骤3_2将获得的数据特征的无标记数据集部分和真假数据集部分根据其预测出来的最大概率,生成属于无标记数据集的伪标签,具体公式如下所示:
[0028]Y
u
={max(softmax(F
i
))}
[0029]步骤3_3将有标数据、无标数据、真假数据与相对应的标签计算交叉熵损失,具体监督损失公式如下所示:
[0030][0031]无监督损失公式如下所示:
[0032][0033]真假数据损失如下所示:
[0034][0035]最终损失如下所示:
[0036]L=L
x
+L
u
+L
fr
[0037]步骤3_4反向传播损失值并优化模型。
[0038]步骤3_5不断迭代得到优化后的模型。
[0039]4.模型验证测试阶段,针对于优化完成并收敛的模型,使用数据集后40%的部分对其数据分析能力进行检测。本专利技术使用准确度作为本专利技术衡量模型优劣的标准,使用伪标签的方式模拟真实世界数据存在情况,为无标记数据生成标签,使模型可以通过更加大量、全面的数据进行训练本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于伪标记和假数据识别的遥感图像分类方法,其特征在于该方法包括以下步骤:步骤1:数据预处理,包括对数据进行格式修改和数据集的划分。步骤2:数据输入阶段,对输入数据进行简单处理并构造真假数据集。步骤3:模型训练阶段,使用基于伪标记和假数据识别的遥感图像分类方法。步骤4:模型验证测试阶段,使用验证集和测试集对模型进行测试。2.根据权利要求1所述的一种基于伪标记和假数据识别的遥感图像分类方法,其特征在于,所述步骤1中的数据预处理模块,具体步骤为:步骤1_1加载datasets文件夹下的飞机、篮球场、桥、河、山、岛、森林、热电站、雪堡、高速公路全部10个类的数据集,加载完后得到每个类含有700张图像的,一共7000张图像的数据。步骤1_2通过utils文件夹下的chuli.py文件对数据集进行处理,将数据集以6:2:2的比例拆分为训练集、验证集和测试集。3.根据权利要求1所述的一种基于伪标记和假数据识别的遥感图像分类方法,其特征在于,所述步骤2中的数据输入模块,具体步骤为:步骤2_1将原始数据从datasets下的train文件夹中读出,根据所属的类别划分成train_label_dataset和train_unlabel_dataset两个数据集合。步骤2_2将两个数据集合经过简单处理将大小修改成128*128,然后通过使用torch环境中的dataloader方法,将两个数据集合整合成乱序的、具有batch_size属性的train_label_dataloader和train_unlabel_dataloader两种数据集合。步骤2_3将存在于train_unlabel_dataloader中的数据读出,根据utils文件夹下的mixdata.py方法进行数据混合,生...

【专利技术属性】
技术研发人员:席亮孟祥龙苗德华
申请(专利权)人:哈尔滨理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1