当前位置: 首页 > 专利查询>重庆市地理信息和遥感应用中心重庆市测绘产品质量检验测试中心专利>正文

局部语义增强编码器、窗口语义增强Transformer块、航拍视频分类模型及方法技术

技术编号：43910315 阅读：25 留言：0更新日期：2025-01-03 13:18

本发明专利技术公开了一种局部语义增强编码器、窗口语义增强Transformer块、航拍视频分类模型及方法。编码器包括窗口定位模块和窗口时间多头自注意力模块。窗口定位模块采用与局部窗口大小相同的无填充卷积核计算输入的视频特征的特征响应，并以此确定视频特征中特性响应最大的关键窗口区域，进而剥离出关键窗口区域内的局部视频特征。窗口时间多头自注意力模块计算出局部视频特征的窗口时间多头自注意力，并通过残差块将窗口时间多头自注意力加入视频特征中。如此不仅排除对运动信息不敏感的背景信息，避免对过长的视频序列计算自注意力所导致的计算量过高，提高了航拍视频识别的效率。还增强了航拍视频的局部运动信息，提高了后续航拍视频识别的准确率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及视频识别，具体涉及一种局部语义增强编码器、窗口语义增强transformer块、航拍视频分类模型及方法。

技术介绍

1、随着航空自动化技术和遥感成像技术的不断发展，无人机得益于其机动性高、成本低、操作简易的特点，能够在不同视角下捕获海量的遥感影像。同时，可以通过装载着智能影像分析系统的无人机捕获并分析视频和图像，在众多应用领域有着极高的实用价值，如目标侦察、灾害探测、物流配送、病虫害分析等。

2、以人工判读方式处理无人机视频成本高、速度慢，难以适配无人机所获取的海量数据，因此需要通过一种更有效且高效的方式自动解译无人机视频的内容。深度学习是机器学习的一个重要研究分支，其通过深度神经网络的针对性设计来学习复杂的特征与表示，并凭借其优秀的鲁棒性与泛化性广泛应用于计算机视觉与自然语言处理等领域。

3、与人工判读方式相比，基于深度学习的方式可以更有效且高效的方式自动解译无人机视频的内容，其中卷积神经网络与视觉transformer是计算机视觉领域的主流深度学习方法。

4、transformer是...

【技术保护点】

1.一种局部语义增强编码器，其特征在于，包括：

2.根据权利要求1所述的局部语义增强编码器，其特征在于，所述窗口定位模块包括：

3.根据权利要求1所述的局部语义增强编码器，其特征在于，还包括：

4.一种窗口语义增强Transformer块，其特征在于，包括：

5.根据权利要求4所述的窗口语义增强Transformer块，其特征在于，所述标准编码器包括依次连接的第三层归一化模块、多头注意力模块、第四层归一化模块和第二多层感知机。

6.根据权利要求5所述的窗口语义增强Transformer块，其特征在于：