【技术实现步骤摘要】
本专利技术属于图像处理与识别领域,涉及结合大模型技术实现军事飞行目标的图像识别,具体是一种基于大模型的空中时敏目标识别方法。
技术介绍
1、随着零样本和少量样本分类技术的快速发展,预训练的视觉-语言模型(vlms)如clip等已经展现出了巨大的潜力。然而,由于大规模事件中相机数据集的缺乏,直接针对事件数据训练的模型仍然不可行。因此,将现有的vlms跨模态适应于事件视觉成为了一个重要的研究挑战。
2、在此背景下,wu等人[1]提出了eventclip,利用clip进行基于事件的目标识别,并且支持零样本和少量样本的学习。通过将原始事件转换为2d网格表示来泛化clip的图像编码器。为了进一步提升性能,wu等人还提出了一种特征适配器,用于聚合事件帧上的时间信息,并精炼文本嵌入以更好地与视觉输入对齐。
3、多模态对象识别中,机器学习面临的一个重要挑战是域泛化:在处理与训练数据分布不同的任务时,该能力尤为重要。当前的方法主要集中在纯视觉对象识别上,而忽视了自然语言的融合。然而,随着视觉-语言预训练技术的进步,利用大量视觉-语
...【技术保护点】
1.一种基于大模型的空中时敏目标识别方法,其特征在于,具体步骤如下:
2.如权利要求1所述的一种基于大模型的空中时敏目标识别方法,其特征在于,所述步骤一中,将同一型号飞机的所有飞行轨迹视频,按帧进行划分,得到含有时敏目标的图像数据集合P:
3.如权利要求1所述的一种基于大模型的空中时敏目标识别方法,其特征在于,所述步骤二中,预处理是指:针对当前视频,将该视频中每帧图像保持横纵比的同时调整分辨率为224×224,不足的像素被填充为零像素。
4.如权利要求1所述的一种基于大模型的空中时敏目标识别方法,其特征在于,所述步骤三中,CLIP模
...【技术特征摘要】
1.一种基于大模型的空中时敏目标识别方法,其特征在于,具体步骤如下:
2.如权利要求1所述的一种基于大模型的空中时敏目标识别方法,其特征在于,所述步骤一中,将同一型号飞机的所有飞行轨迹视频,按帧进行划分,得到含有时敏目标的图像数据集合p:
3.如权利要求1所述的一种基于大模型的空中时敏目标识别方法,其特征在于,所述步骤二中,预处理是指:针对当前视频,将该视频中每帧图像保持横纵比的同时调整分辨率为224×224,不足的像素被填充为零像素。
4.如权利要求1所述的一种基于大模型的空中时敏目标识别方法,其特征在于,所述步骤三中,clip模型采用了12层transformer模块的vision transformer作为图像编码器,同时采取patch的大小为16;
5.如权利要求4所述的一种基于大模型的空中时敏目标识别方法,其特征在于,所述步骤三的具体转换过程为:
6.如权利要求1...
【专利技术属性】
技术研发人员:游令非,高星海,常创业,王卓奇,郭志奇,刘清漪,
申请(专利权)人:北京航空航天大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。