【技术实现步骤摘要】
一种面向机器视觉的端到端图像编码算法
[0001]本专利技术涉及端到端图像压缩领域,尤其是一种面向机器视觉的图像编码算法
。
技术介绍
[0002]随处可见的摄像头时时刻刻地产生着新的图像
、
视频,这些视觉数据占据着最大的流量比例
。
视觉数据的紧凑表示十分重要,图像压缩能够减轻图像数据的存储和传输压力
。
此外,机器视觉的发展使其可以帮助人类快速
、
便捷地处理视觉数据,获取到他们想要的信息
。
从而可以解放人力,机器成为视觉数据日益重要的消费者
。
[0003]过去的图像压缩标准发展十分成熟,然而这些方法主要围绕人眼视觉特性进行优化,例如人眼对亮度比对色度的变化更为敏感,因此编码器会对这亮度变化剧烈的部分分配更多的编码资源
。
而机器视觉会对与任务相关的信息更加敏感,现有编码器为人眼视觉所关注的内容分配更多编码资源的同时,会忽略对机器视觉而言重要的信息
。
因此,当机器视觉接收到现有编码器压缩后的图像时,其检测性能会显著下降
。
如果能在编码器中考虑机器视觉特性,显然对于面向机器视觉的压缩方法是有益的
。
[0004]目前的图像压缩工作可以分为两类,传统的基于块的编码器以及端到端的基于神经网络的编码器
。
首先,在传统编码器中各个编码模块相对独立,利用机器视觉特性往往智能优化部分模块参数,对整体编码效率提升有限;其次,随着神经网络 ...
【技术保护点】
【技术特征摘要】
1.
一种面向机器视觉的端到端图像编码算法,包括如下步骤:
(1)
获取未压缩图像的检测结果及检测精度;
(2)
根据神经网络的解释性对检测结果进行机器视觉的显著性分析,以热力图的形式表示;
(3)
根据所得到机器视觉显著性图,调整分析变换后的潜在表示的通道数;
(4)
使用机器视觉和人眼视觉失真结合的损失函数,端到端训练编码器
、
解码器网络;
(5)
利用得到的模型进行实际图像的压缩和解压缩
。2.
如权利要求1所述的面向机器视觉的端到端图像编码算法,其特征在于步骤
(1)
中,将未压缩的原始图像输入目标检测器
YOLO
中,获取未压缩图像的检测结果及检测精度具体包括如下步骤:
(11)
将未压缩图像输入
YOLO
,获得检测结果
Pred
gt
;
Pred
gt
(cls
,
bbox
,
conf)
=
YOLO(x)
,其中,
Pred
gt
表示未压缩图像上的检测结果,包含三部分信息,类别信息
cls、
检测框信息
bbox
以及置信度信息
conf
;
(12)
在标签信息指导下,
YOLO
计算检测精度
mAP@0.5
以及
mAP@0.5∶0.95。3.
如权利要求1所述的面向机器视觉的端到端图像编码算法,其特征在于步骤
(2)
中,获取表示机器视觉显著性的显著图,具体包括如下步骤:
(21)
获取图像中每个目标的显著图
S
k
;
p
ij
表示显著图
S
k
中,每个空间位置上的重要性,其范围在0到
1。
σ
k
表示显著性阈值,当
p
ij
小于阈值时,该位置的显著性被置零,否则将保持原显著性;
(22)
将所有显著图进行融合,以一张显著图
S
表示图像中所有目标的显著性:
S(s
ij
)
表示最终显著图中
S
中每个空间位置上的显著性,由多张显著图
S
k
相加得到,如果大于1的区域,将被置为
1。4.
如权利要求1所述的面向机器视觉的端到端图像编码算法,其特征在于,步骤
(3)
中,根据步骤
(2)
所得显著性图
S
,根据
S
调整编码器网络输出得到的特征通道,调整后通道数计算式如下式:
C
=
C
min
+S(p
ij<...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。