一种面向遥感场景的视频大模型构建方法技术

技术编号:37564036 阅读:16 留言:0更新日期:2023-05-15 07:45
本申请涉及计算机模型的构建技术领域,特别是涉及一种面向遥感场景的视频大模型构建方法。所述方法包括以下步骤:获取遥感图像集合A和目标视频集合B,A={a1,a2,

【技术实现步骤摘要】
一种面向遥感场景的视频大模型构建方法


[0001]本专利技术涉及计算机模型的构建
,特别是涉及一种面向遥感场景的视频大模型构建方法。

技术介绍

[0002]由于遥感视频具有时间和空间上的双重特征,而且遥感场景本身具有复杂的纹理背景,因此,遥感场景下的视频解译任务需要的模型需要具有较强的特征提取能力,同时要发掘视频的空间特征规律和时间特征规律。如何构建一种具有较强特征提取能力和特征规律发掘能力的面向遥感场景的视频大模型,是亟待解决的问题。

技术实现思路

[0003]本专利技术目的在于,提供一种面向遥感场景的视频大模型构建方法,构建了一种具有较强特征提取能力和特征规律发掘能力的面向遥感场景的视频大模型。
[0004]根据本专利技术,提供了一种面向遥感场景的视频大模型构建方法,包括以下步骤:
[0005]获取遥感图像集合A和目标视频集合B,A={a1,a2,

,a
N
},a
n
为A中第n帧遥感图像,n的取值范围为1到N,N为A中遥感图像的数量;B={b1,b2,

,b
M
},b
m
为B中第m个目标视频,m的取值范围为1到M,M为B中目标视频的数量,b
m
=(b
m,1
,b
m,2
,

,b
m,Q
),b
m,q
为b
m
中第q帧目标图像,q的取值范围为1到Q,Q为目标视频中目标图像的数量,b
m,1
、b
m,2


、b
m,Q
为连续拍摄的Q帧目标图像;B中目标视频为卫星搭载遥感设备拍摄的视频或无人机搭载遥感设备拍摄的视频,所述遥感图像为卫星搭载遥感设备拍摄的图像。
[0006]利用A和B对神经网络模型进行训练,所述神经网络模型包括第一神经网络子模型和第二神经网络子模型,所述训练的过程包括:
[0007]遍历A,对a
n
进行分块处理,并随机对a
n
中的k*C块进行掩码处理;C为对a
n
进行分块得到的块数量,k为预设掩码比例;利用掩码处理后的a
n
对第一神经网络子模型进行训练,所述第一神经网络子模型为2D swin

transformer结构,所述第一神经网络子模型包括第一编码器和第一解码器。
[0008]遍历B,对b
m
中的第[i
m
,i
m
+L]帧图像进行掩码处理,i
m
+L≤Q,i
m
≥1,L为预设掩码帧数量,i
m
为b
m
中的起始掩码帧;利用掩码处理后的b
m
对第二神经网络子模型进行训练,所述第二子模型为3D swin

transformer结构,所述第二神经网络子模型包括第二编码器和第二解码器;所述对第一神经网络子模型进行训练与所述对第二神经网络子模型进行训练同时进行,所述第二编码器与所述第一编码器在训练的过程中存在权重共享。
[0009]本专利技术与现有技术相比具有明显的有益效果,借由上述技术方案,本专利技术提供的方法可达到相当的技术进步性及实用性,并具有产业上的广泛利用价值,其至少具有以下有益效果:
[0010]本专利技术的面向遥感场景的视频大模型包括两个支路,第一支路对应于第一神经网络子模型,该支路对应的训练样本为遥感图像集合;第二支路对应于第二神经网络子模型,
该支路对应的训练样本为目标视频集合,本专利技术的目标视频集合不但包括遥感视频(即卫星搭载遥感设备拍摄的视频),还包括无人机视频(无人机搭载遥感设备拍摄的视频),由于遥感视频不容易获取,因此可作为训练样本的遥感视频的数量较少;本专利技术通过引入无人机视频对视频样本数量进行了扩充,利用扩充后的视频样本对第二神经网络子模型进行训练可提高第二神经网络子模型的特征提取和规律发掘的能力,也提高了经训练的第二神经网络子模型的泛化能力,可应用于不同的偏时空预测的下游任务。
[0011]而且,本专利技术对第一神经网络子模型对应的遥感图像样本采用的掩码策略为随机掩码一部分像素点,通过该随机掩码策略来提高第一神经网络模型提取遥感图像的空间信息的能力;对第二神经网络子模型对应的目标视频样本采用的掩码策略为将目标视频中的某一帧作为起始帧,将该起始帧之后的固定长度的帧都进行掩码,通过该掩码策略来增大视频预测的难度,提高第二神经网络子模型提取视频中物体的时空连续信息的能力;本专利技术对第一神经网络子模型的训练过程与对第二神经网络子模型的训练过程同时进行,加快了对视频大模型的训练过程,且训练过程中第一神经网络子模型中的第一编码器与第二神经网络子模型中的第二编码器之间存在权重共享,由此,第二神经网络子模型就可以获取第一神经网络子模型提取遥感图像的空间信息的能力,进而提升了第二神经网络子模型自身提取遥感图像的空间信息的能力,有利于加快对第二神经网络子模型的训练过程。
附图说明
[0012]为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0013]图1为本专利技术实施例提供的面向遥感场景的视频大模型构建方法的流程图。
具体实施方式
[0014]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0015]根据本专利技术,提供了一种面向遥感场景的视频大模型构建方法,如图1所示,包括以下步骤:
[0016]S100,获取遥感图像集合A和目标视频集合B,A={a1,a2,

,a
N
},a
n
为A中第n帧遥感图像,n的取值范围为1到N,N为A中遥感图像的数量;B={b1,b2,

,b
M
},b
m
为B中第m个目标视频,m的取值范围为1到M,M为B中目标视频的数量,b
m
=(b
m,1
,b
m,2
,

,b
m,Q
),b
m,q
为b
m
中第q帧目标图像,q的取值范围为1到Q,Q为目标视频中目标图像的数量,b
m,1
、b
m,2


、b
m,Q
为连续拍摄的Q帧目标图像;B中目标视本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种面向遥感场景的视频大模型构建方法,其特征在于,包括以下步骤:获取遥感图像集合A和目标视频集合B,A={a1,a2,

,a
N
},a
n
为A中第n帧遥感图像,n的取值范围为1到N,N为A中遥感图像的数量;B={b1,b2,

,b
M
},b
m
为B中第m个目标视频,m的取值范围为1到M,M为B中目标视频的数量,b
m
=(b
m,1
,b
m,2
,

,b
m,Q
),b
m,q
为b
m
中第q帧目标图像,q的取值范围为1到Q,Q为目标视频中目标图像的数量,b
m,1
、b
m,2


、b
m,Q
为连续拍摄的Q帧目标图像;B中目标视频为卫星搭载遥感设备拍摄的视频或无人机搭载遥感设备拍摄的视频,所述遥感图像为卫星搭载遥感设备拍摄的图像;利用A和B对神经网络模型进行训练,所述神经网络模型包括第一神经网络子模型和第二神经网络子模型,所述训练的过程包括:遍历A,对a
n
进行分块处理,并随机对a
n
中的k*C块进行掩码处理;C为对a
n
进行分块得到的块数量,k为预设掩码比例;利用掩码处理后的a
n
对...

【专利技术属性】
技术研发人员:孙显付琨于泓峰姚方龙卢宛萱邓楚博杨和明
申请(专利权)人:中国科学院空天信息创新研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1