基于动态自适应掩码和词元稀疏的超高清视频分类方法技术

技术编号:43247666 阅读:29 留言:0更新日期:2024-11-05 17:32
本发明专利技术属于超高清视频图像处理技术领域,提出了基于动态自适应掩码和词元稀疏的超高清视频分类方法,包括:利用随机掩码对超高清视频帧按照一定比例进行随机的掩码后的视频帧输入到编码器中得到中间的视觉特征;对编码器得到的中间的视觉特征进行分类,完成超高清视频帧的微调;按照决策概率和动态掩码移除当前变换层不重要的视觉词元,将剩下的重要的视觉词元传递给后续的变换层进行处理,完成超高清视频中的某一视频帧分类;在完成某一视频中的全部帧的分类后,对每一帧单独得到的结果进行直接的合并归纳,投票选取类别最多的类作为最终的超高清视频分类结果。本发明专利技术能够降低超高清视频处理过程中的计算复杂度并保证计算精度。

【技术实现步骤摘要】

本专利技术涉及超高清视频图像处理,特别涉及基于动态自适应掩码和词元稀疏的超高清视频分类方法


技术介绍

1、目前由于城市道路的广泛使用,导致城市道路交通拥堵状况越来越严重。

2、近几年来,视觉变换器由于其出色的效果已成为计算机视觉工业界与学术界的重要研究方向之一。相比于早先流行的卷积神经网络(convolutional neural network,cnn)模型,vit得益于自注意力机制的引入,使其更能建立图像块中全局语义的依赖,因此能够实现更高的模型精度,但同时也面临着比cnn更高的计算复杂度。与此同时,随着当下超高清视频产业的发展,超高清视频越来越成为了当前视频领域的主要数据来源。而相比于更低分辨率的标清视频,超高清视频具备3840x2160及以上像素的分辨率,面临着更高的计算资源消耗。因此,如何有效的改善现有vit模型在超高清视频上的处理速度,同时尽可能保持较高的模型精度,是当前深度神经网络技术在超高清视频处理技术中的重点难题之一。

3、在这之前,卷积神经网络(cnn)一直是处理图像与视频的标准范例。cnn的特点在于它的局部连本文档来自技高网...

【技术保护点】

1.基于动态自适应掩码和词元稀疏的超高清视频分类方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的基于动态自适应掩码和词元稀疏的超高清视频分类方法,其特征在于,所述利用随机掩码对超高清视频帧按照一定比例进行随机的掩码之前,还包括:

3.根据权利要求1所述的基于动态自适应掩码和词元稀疏的超高清视频分类方法,其特征在于,所述利用随机掩码对超高清视频帧按照一定比例进行随机的掩码,并将掩码后的视频帧输入到编码器中,得到中间的视觉特征,是指:

4.根据权利要求3所述的基于动态自适应掩码和词元稀疏的超高清视频分类方法,其特征在于,将动态自适应掩码层通过预先...

【技术特征摘要】

1.基于动态自适应掩码和词元稀疏的超高清视频分类方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的基于动态自适应掩码和词元稀疏的超高清视频分类方法,其特征在于,所述利用随机掩码对超高清视频帧按照一定比例进行随机的掩码之前,还包括:

3.根据权利要求1所述的基于动态自适应掩码和词元稀疏的超高清视频分类方法,其特征在于,所述利用随机掩码对超高清视频帧按照一定比例进行随机的掩码,并将掩码后的视频帧输入到编码器中,得到中间的视觉特征,是指:

4.根据权利要求3所述的基于动态自适应掩码和词元稀疏的超高清视频分类方法,其特征在于,将动态自适应掩码层通过预先设置插入到encoder中对应transformer层的位置,用于在预训练过程中实现动态的自适应掩码策略;

5.根据权利要求4所述的基于动态自适应掩码和词元稀疏的超高清视频分类方法,其特征在于,在预训练过程中,被掩码的词元不参与到注意力的计算过程中,采用多头自注意力公式对不重要的...

【专利技术属性】
技术研发人员:姚平陈相如宋小民彭德中杨俊谢超平李怡刘征王友全吴万馨吴成志李毅刘彬张咔孙元李子清付瑜王玮郭竹修郑慧明王正雄
申请(专利权)人:四川国创新视超高清视频科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1