一种基于大模型的空中时敏目标识别方法技术

技术编号:45083300 阅读:38 留言:0更新日期:2025-04-25 18:21
本发明专利技术公开了一种基于大模型的空中时敏目标识别方法,属于图像处理与识别领域;具体为:对同一型号的飞机在不同时间点的飞行轨迹进行采集,获取包含空中时敏目标的图像数据和文本数据;然后,对图像进行预处理,利用CLIP模型将图像转换为视觉特征向量,获取编码后的图像特征。接着,对文本进行预处理,得到自然语言描述;并设计定义规则,将自然语言描述划分为多类型语义,进而通过设计语义提示合并器实施有机融合,输入到CLIP模型得到全局语义提示特征。最后,将每帧图像的全局语义提示特征作为查询向量,编码后的图像特征作为键和值向量,通过增强图像特征,最终有效识别出时敏目标。本发明专利技术提升了获取了具备强描述性和分辨性的目标。

【技术实现步骤摘要】

本专利技术属于图像处理与识别领域,涉及结合大模型技术实现军事飞行目标的图像识别,具体是一种基于大模型的空中时敏目标识别方法


技术介绍

1、随着零样本和少量样本分类技术的快速发展,预训练的视觉-语言模型(vlms)如clip等已经展现出了巨大的潜力。然而,由于大规模事件中相机数据集的缺乏,直接针对事件数据训练的模型仍然不可行。因此,将现有的vlms跨模态适应于事件视觉成为了一个重要的研究挑战。

2、在此背景下,wu等人[1]提出了eventclip,利用clip进行基于事件的目标识别,并且支持零样本和少量样本的学习。通过将原始事件转换为2d网格表示来泛化clip的图像编码器。为了进一步提升性能,wu等人还提出了一种特征适配器,用于聚合事件帧上的时间信息,并精炼文本嵌入以更好地与视觉输入对齐。

3、多模态对象识别中,机器学习面临的一个重要挑战是域泛化:在处理与训练数据分布不同的任务时,该能力尤为重要。当前的方法主要集中在纯视觉对象识别上,而忽视了自然语言的融合。然而,随着视觉-语言预训练技术的进步,利用大量视觉-语言对进行监督学习已经本文档来自技高网...

【技术保护点】

1.一种基于大模型的空中时敏目标识别方法,其特征在于,具体步骤如下:

2.如权利要求1所述的一种基于大模型的空中时敏目标识别方法,其特征在于,所述步骤一中,将同一型号飞机的所有飞行轨迹视频,按帧进行划分,得到含有时敏目标的图像数据集合P:

3.如权利要求1所述的一种基于大模型的空中时敏目标识别方法,其特征在于,所述步骤二中,预处理是指:针对当前视频,将该视频中每帧图像保持横纵比的同时调整分辨率为224×224,不足的像素被填充为零像素。

4.如权利要求1所述的一种基于大模型的空中时敏目标识别方法,其特征在于,所述步骤三中,CLIP模型采用了12层Tra...

【技术特征摘要】

1.一种基于大模型的空中时敏目标识别方法,其特征在于,具体步骤如下:

2.如权利要求1所述的一种基于大模型的空中时敏目标识别方法,其特征在于,所述步骤一中,将同一型号飞机的所有飞行轨迹视频,按帧进行划分,得到含有时敏目标的图像数据集合p:

3.如权利要求1所述的一种基于大模型的空中时敏目标识别方法,其特征在于,所述步骤二中,预处理是指:针对当前视频,将该视频中每帧图像保持横纵比的同时调整分辨率为224×224,不足的像素被填充为零像素。

4.如权利要求1所述的一种基于大模型的空中时敏目标识别方法,其特征在于,所述步骤三中,clip模型采用了12层transformer模块的vision transformer作为图像编码器,同时采取patch的大小为16;

5.如权利要求4所述的一种基于大模型的空中时敏目标识别方法,其特征在于,所述步骤三的具体转换过程为:

6.如权利要求1...

【专利技术属性】
技术研发人员:游令非高星海常创业王卓奇郭志奇刘清漪
申请(专利权)人:北京航空航天大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1