当前位置: 首页 > 专利查询>中国人民解放军网络空间部队信息工程大学专利>正文

基于多模态大模型的无人机视频摘要语义描述方法及系统技术方案

技术编号：45977165 阅读：11 留言：0更新日期：2025-08-01 18:40

本发明专利技术涉及无人机视频数据解译技术领域，特别涉及一种基于多模态大模型的无人机视频摘要语义描述方法及系统，获取无人机视频数据的若干分段视频帧图像；利用多模态大模型提取图像特征，所述多模态大模型采用视觉语言基础模型中的图像编码器对输入的分段视频帧图像进行编码并提取对应的图像特征；对图像特征进行自适应聚类，得到每个分段视频的聚类中心，以聚类中心所在帧位置作为视频摘要所在帧位置，生成无人机视频摘要；利用语义描述模型获取无人机视频摘要的场景语义描述，所述语义描述模型为利用无人机图像语义描述数据集对大模型进行微调后得到的。本发明专利技术可准确高效地从无人机视频数据中提取核心情报信息，提升无人机视频数据利用效率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及无人机视频数据解译，特别涉及一种基于多模态大模型的无人机视频摘要语义描述方法及系统。

技术介绍

1、随着无人机和传感器技术的快速进步，无人机利用传感器获取的视频数据量呈现爆炸式增长的趋势。快速准确从无人机视频数据中筛选高价值内容或关键信息，能够为高效理解视频内容提供支撑。然而，随着无人机探测设备性能的提升，获取的视频数据不仅需要较大的存储空间，而且从大量视频数据中快速找到有价值内容的难度增大，需要耗费大量的人力和时间，已远非人工处理可以应对。如何直观高效的查阅无人机视频数据，快速完成对视频数据核心内容的大致了解，并获取视频数据所包含的主要信息，已经成为目前实现对无人机视频数据高效理解所亟需解决的问题，并逐渐成为研究热点。

2、为了从大量无人机视频数据中快速直观高效的获取高价值内容和关键信息，需要依靠计算机自动化地筛选提取视频核心内容，并开展后续处理任务，因此亟需围绕无人机视频数据开展相关研究。其中，视频摘要生成与语义描述技术的结合能以简洁的图片列表和语义描述形式呈现长时视频中的有价值内容，可为大量视频理解提供有...

【技术保护点】

1.一种基于多模态大模型的无人机视频摘要语义描述方法，其特征在于，包含：

2.根据权利要求1所述的基于多模态大模型的无人机视频摘要语义描述方法，其特征在于，对待处理无人机视频数据进行预处理，包含：

3.根据权利要求2所述的基于多模态大模型的无人机视频摘要语义描述方法，其特征在于，所述特征提取部分在提取输入视频帧空间特征与帧间时序关联特征时，依据图像RGB颜色直方图及学习特征来计算视频帧图像之间的余弦相似度，并利用余弦相似度来获取帧间时序关联特征。

4.根据权利要求1或2所述的基于多模态大模型的无人机视频摘要语义描述方法，其特征在于，视频帧抽取，包含：<...

【技术特征摘要】

1.一种基于多模态大模型的无人机视频摘要语义描述方法，其特征在于，包含：

2.根据权利要求1所述的基于多模态大模型的无人机视频摘要语义描述方法，其特征在于，对待处理无人机视频数据进行预处理，包含：

3.根据权利要求2所述的基于多模态大模型的无人机视频摘要语义描述方法，其特征在于，所述特征提取部分在提取输入视频帧空间特征与帧间时序关联特征时，依据图像rgb颜色直方图及学习特征来计算视频帧图像之间的余弦相似度，并利用余弦相似度来获取帧间时序关联特征。

4.根据权利要求1或2所述的基于多模态大模型的无人机视频摘要语义描述方法，其特征在于，视频帧抽取，包含：

5.根据权利要求1所述的基于多模态大模型的无人机视频摘要语义描述方法，其特征在于，利用...

【专利技术属性】
技术研发人员：卢万杰，刘伟，牛朝阳，蓝朝桢，胡涛，李润生，王世举，吴亚杰，
申请(专利权)人：中国人民解放军网络空间部队信息工程大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人