基于动态自适应掩码和词元稀疏的超高清视频分类方法技术

技术编号：43247666 阅读：29 留言：0更新日期：2024-11-05 17:32

本发明专利技术属于超高清视频图像处理技术领域，提出了基于动态自适应掩码和词元稀疏的超高清视频分类方法，包括：利用随机掩码对超高清视频帧按照一定比例进行随机的掩码后的视频帧输入到编码器中得到中间的视觉特征；对编码器得到的中间的视觉特征进行分类，完成超高清视频帧的微调；按照决策概率和动态掩码移除当前变换层不重要的视觉词元，将剩下的重要的视觉词元传递给后续的变换层进行处理，完成超高清视频中的某一视频帧分类；在完成某一视频中的全部帧的分类后，对每一帧单独得到的结果进行直接的合并归纳，投票选取类别最多的类作为最终的超高清视频分类结果。本发明专利技术能够降低超高清视频处理过程中的计算复杂度并保证计算精度。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及超高清视频图像处理，特别涉及基于动态自适应掩码和词元稀疏的超高清视频分类方法。

技术介绍

1、目前由于城市道路的广泛使用，导致城市道路交通拥堵状况越来越严重。

2、近几年来，视觉变换器由于其出色的效果已成为计算机视觉工业界与学术界的重要研究方向之一。相比于早先流行的卷积神经网络(convolutional neural network,cnn)模型，vit得益于自注意力机制的引入，使其更能建立图像块中全局语义的依赖，因此能够实现更高的模型精度，但同时也面临着比cnn更高的计算复杂度。与此同时，随着当下超高清视频产业的发展，超高清视频越来越成为了当前视频领域的主要数据来源。而相比于更低分辨率的标清视频，超高清视频具备3840x2160及以上像素的分辨率，面临着更高的计算资源消耗。因此，如何有效的改善现有vit模型在超高清视频上的处理速度，同时尽可能保持较高的模型精度，是当前深度神经网络技术在超高清视频处理技术中的重点难题之一。

3、在这之前，卷积神经网络(cnn)一直是处理图像与视频的标准范例。cnn...

【技术保护点】

1.基于动态自适应掩码和词元稀疏的超高清视频分类方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的基于动态自适应掩码和词元稀疏的超高清视频分类方法，其特征在于，所述利用随机掩码对超高清视频帧按照一定比例进行随机的掩码之前，还包括：

3.根据权利要求1所述的基于动态自适应掩码和词元稀疏的超高清视频分类方法，其特征在于，所述利用随机掩码对超高清视频帧按照一定比例进行随机的掩码，并将掩码后的视频帧输入到编码器中，得到中间的视觉特征，是指：

4.根据权利要求3所述的基于动态自适应掩码和词元稀疏的超高清视频分类方法，其特征在于，将动态自适应掩码层通过预先...

【技术特征摘要】

1.基于动态自适应掩码和词元稀疏的超高清视频分类方法，其特征在于，包括如下步骤：

4.根据权利要求3所述的基于动态自适应掩码和词元稀疏的超高清视频分类方法，其特征在于，将动态自适应掩码层通过预先设置插入到encoder中对应transformer层的位置，用于在预训练过程中实现动态的自适应掩码策略；

5.根据权利要求4所述的基于动态自适应掩码和词元稀疏的超高清视频分类方法，其特征在于，在预训练过程中，被掩码的词元不参与到注意力的计算过程中，采用多头自注意力公式对不重要的...

【专利技术属性】
技术研发人员：姚平，陈相如，宋小民，彭德中，杨俊，谢超平，李怡，刘征，王友全，吴万馨，吴成志，李毅，刘彬，张咔，孙元，李子清，付瑜，王玮，郭竹修，郑慧明，王正雄，
申请(专利权)人：四川国创新视超高清视频科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人