【技术实现步骤摘要】
本专利技术属于机器视频编码领域,更具体地,涉及一种基于多尺度框架的端到端特征图分层压缩方法。
技术介绍
1、视觉是人类获得外部信息的重要途径,视频作为视觉信息的数字承载形式,已经成为每个人的日常生活以及社会的正常运转中不可或缺的一部分。近年来,随着互联网技术的不断发展,视频成为了网络传输数据的主要内容,并且人工智能的进步也使得让机器来帮助人类处理视频成为了一种可能。此外,随着人均拥有智能设备数量的不断增加,被机器所消费的视频数量逐渐超过了被人类消费的数量。机器处理视频数据包括目标检测、实例分割和目标追踪等视觉任务,注重机器视觉任务的精度,而这与注重视频质量的人类观看视频标准不同。另一方面,由于视频的数据量巨大,高效的压缩算法也是必不可少的。
2、由于视频的观看者为机器而不是人,视频在压缩后并不需要对原始输入进行还原重建,而是要能利用压缩后的信息实现特定的后端视觉任务,例如目标检测、实例分割等。目前常见机器视觉编码方式为特征图压缩,具体而言先将原始视频送入特征提取网络提取特征图,然后对特征图进行压缩传输,在解码端将还原后的特征
...【技术保护点】
1.一种基于多尺度框架的端到端特征图分层压缩方法,其特征在于,包括:
2.如权利要求1所述的方法,其特征在于,步骤S2中,采用端到端压缩模块进行压缩;
3.如权利要求2所述的方法,其特征在于,所述全局注意力模块包括:
4.如权利要求2或3所述的方法,其特征在于,所述第一自适应域压缩模块用于丢弃目标特征图中与所述目标特征图的通道权重矩阵中值为0的元素对应的通道,保留目标特征图中与所述目标特征图的通道权重矩阵中值为1的元素对应的通道,以将所述目标特征图的尺寸从H×W×C压缩为H×W×c;
5.如权利要求4所述的方法,其特征在
...【技术特征摘要】
1.一种基于多尺度框架的端到端特征图分层压缩方法,其特征在于,包括:
2.如权利要求1所述的方法,其特征在于,步骤s2中,采用端到端压缩模块进行压缩;
3.如权利要求2所述的方法,其特征在于,所述全局注意力模块包括:
4.如权利要求2或3所述的方法,其特征在于,所述第一自适应域压缩模块用于丢弃目标特征图中与所述目标特征图的通道权重矩阵中值为0的元素对应的通道,保留目标特征图中与所述目标特征图的通道权重矩阵...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。