一种基于多尺度框架的端到端特征图分层压缩方法技术

技术编号:40537719 阅读:30 留言:0更新日期:2024-03-01 14:00
本发明专利技术公开了一种基于多尺度框架的端到端特征图分层压缩方法,属于机器视频编码领域,该方法包括:在对输入信号进行机器视觉编码时,使用特征金字塔网络提取多尺度的特征图,通过丢弃部分特征图来减少需要传输的数据量,并且通过上下采样、加权融合的方法仅利用部分特征图实现了丢弃的特征图的预测。此外,考虑到预测图和重建图之间的差异,通过计算残差来对所有特征图进行修正。上述方法能够在保证任务精度的情况下大大减少需要压缩传输的特征图数据量,从而减少传输码流。此外,针对视觉任务中目标大小不一的情况,引入了多尺度的方法,使用具有不同大小感受野的特征图来确保该方法因对不同尺寸任务目标的鲁棒性。

【技术实现步骤摘要】

本专利技术属于机器视频编码领域,更具体地,涉及一种基于多尺度框架的端到端特征图分层压缩方法


技术介绍

1、视觉是人类获得外部信息的重要途径,视频作为视觉信息的数字承载形式,已经成为每个人的日常生活以及社会的正常运转中不可或缺的一部分。近年来,随着互联网技术的不断发展,视频成为了网络传输数据的主要内容,并且人工智能的进步也使得让机器来帮助人类处理视频成为了一种可能。此外,随着人均拥有智能设备数量的不断增加,被机器所消费的视频数量逐渐超过了被人类消费的数量。机器处理视频数据包括目标检测、实例分割和目标追踪等视觉任务,注重机器视觉任务的精度,而这与注重视频质量的人类观看视频标准不同。另一方面,由于视频的数据量巨大,高效的压缩算法也是必不可少的。

2、由于视频的观看者为机器而不是人,视频在压缩后并不需要对原始输入进行还原重建,而是要能利用压缩后的信息实现特定的后端视觉任务,例如目标检测、实例分割等。目前常见机器视觉编码方式为特征图压缩,具体而言先将原始视频送入特征提取网络提取特征图,然后对特征图进行压缩传输,在解码端将还原后的特征图送入后端网络完成机本文档来自技高网...

【技术保护点】

1.一种基于多尺度框架的端到端特征图分层压缩方法,其特征在于,包括:

2.如权利要求1所述的方法,其特征在于,步骤S2中,采用端到端压缩模块进行压缩;

3.如权利要求2所述的方法,其特征在于,所述全局注意力模块包括:

4.如权利要求2或3所述的方法,其特征在于,所述第一自适应域压缩模块用于丢弃目标特征图中与所述目标特征图的通道权重矩阵中值为0的元素对应的通道,保留目标特征图中与所述目标特征图的通道权重矩阵中值为1的元素对应的通道,以将所述目标特征图的尺寸从H×W×C压缩为H×W×c;

5.如权利要求4所述的方法,其特征在于,所述目标特征图的...

【技术特征摘要】

1.一种基于多尺度框架的端到端特征图分层压缩方法,其特征在于,包括:

2.如权利要求1所述的方法,其特征在于,步骤s2中,采用端到端压缩模块进行压缩;

3.如权利要求2所述的方法,其特征在于,所述全局注意力模块包括:

4.如权利要求2或3所述的方法,其特征在于,所述第一自适应域压缩模块用于丢弃目标特征图中与所述目标特征图的通道权重矩阵中值为0的元素对应的通道,保留目标特征图中与所述目标特征图的通道权重矩阵...

【专利技术属性】
技术研发人员:喻莉孙哲文张子祥
申请(专利权)人:华中科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1