当前位置: 首页 > 专利查询>河海大学专利>正文

一种面向机器视觉的端到端图像编码算法制造技术

技术编号:39586086 阅读:10 留言:0更新日期:2023-12-03 19:38
本发明专利技术公开了一种面向机器视觉的端到端图像编码算法

【技术实现步骤摘要】
一种面向机器视觉的端到端图像编码算法


[0001]本专利技术涉及端到端图像压缩领域,尤其是一种面向机器视觉的图像编码算法


技术介绍

[0002]随处可见的摄像头时时刻刻地产生着新的图像

视频,这些视觉数据占据着最大的流量比例

视觉数据的紧凑表示十分重要,图像压缩能够减轻图像数据的存储和传输压力

此外,机器视觉的发展使其可以帮助人类快速

便捷地处理视觉数据,获取到他们想要的信息

从而可以解放人力,机器成为视觉数据日益重要的消费者

[0003]过去的图像压缩标准发展十分成熟,然而这些方法主要围绕人眼视觉特性进行优化,例如人眼对亮度比对色度的变化更为敏感,因此编码器会对这亮度变化剧烈的部分分配更多的编码资源

而机器视觉会对与任务相关的信息更加敏感,现有编码器为人眼视觉所关注的内容分配更多编码资源的同时,会忽略对机器视觉而言重要的信息

因此,当机器视觉接收到现有编码器压缩后的图像时,其检测性能会显著下降

如果能在编码器中考虑机器视觉特性,显然对于面向机器视觉的压缩方法是有益的

[0004]目前的图像压缩工作可以分为两类,传统的基于块的编码器以及端到端的基于神经网络的编码器

首先,在传统编码器中各个编码模块相对独立,利用机器视觉特性往往智能优化部分模块参数,对整体编码效率提升有限;其次,随着神经网络的发展,基于神经网络的端到端图像压缩方法可以提取更多对视觉任务相关的高级语义信息

然而现有的基于端到端的图像压缩方法在考虑机器视觉时,往往仅依赖损失函数对机器视觉任务精度的失真来间接使编码器更加关注对机器视觉重要的部分

而编码器将压缩图像转换为高维张量的同时,仍存在较多冗余在这些通道中

[0005]在端到端编码器中引入神经网络可解释性方法,可以直接获得机器视觉所关注的区域,从而使编码器分析变换后得到的潜在表示更加紧凑

现有的工作在传统编码方式下,仅能对局部模块进行优化,难以达到整体编码效率提升

而在端到端编码框架下,现有工作没有直接考虑机器视觉的特性,从而仍有较多对机器视觉来说的冗余信息


技术实现思路

[0006]本专利技术所要解决的技术问题在于,提供一种基于机器视觉显著性分析的端到端图像压缩方案,在端到端图像压缩框架下更加充分的考虑了机器视觉的特性,根据图像内容对机器视觉的重要性,进行编码资源分配

在相同码率开销下提高压缩后重建图像在机器视觉下的精度,同时重建的图像信号可以拓展至其他任务

[0007]为解决上述技术问题,本专利技术提供一种面向机器视觉的端到端图像编码算法,包括如下步骤:
[0008](1)
以目标检测算法作为机器视觉的典型任务,将未压缩的图像输入目标检测器
YOLO
中,得到未压缩的检测结果及精度;
[0009](2)
进行机器视觉的显著性分析,获得目标检测的显著图;
[0010](3)
根据所得到机器视觉显著性图,调整分析变换后的潜在表示的通道数;
[0011](4)
结合人眼视觉以及机器视觉的失真,以损失函数的形式对端到端训练编码器

解码器网络;
[0012](5)
利用得到的模型进行实际图像的压缩和解压缩

[0013]优选的,步骤
(1)
中,获取未压缩图像的检测结果及检测精度,具体包括如下步骤:
[0014](11)
将未压缩图像输入
YOLO
,获得检测结果
Pred
gt

[0015]Pred
gt
(cls

bbox

conf)

YOLO(x)
[0016]其中,
Pred
gt
表示未压缩图像上的检测结果,包含三部分信息,类别信息
cls、
检测框信息
bbox
以及置信度信息
conf

[0017](12)
在标签信息下,
YOLO
将计算检测精度
mAP@0.5
以及
mAP@0.5

0.95

[0018]优选的,步骤
(2)
中,根据神经网络的解释性对检测结果进行机器视觉的显著性分析,以热力图的形式表示具体包括如下步骤:
[0019](21)
获取图像中每个目标的显著图
S
k

[0020][0021]p
ij
表示显著图
S
k
中,每个空间位置上的重要性,其范围在0到
1。
σ
k
表示显著性阈值,当
p
ij
小于阈值时,该位置的显著性被置零,否则将保持原显著性;
[0022](22)
将所有显著图进行融合,以一张显著图
S
表示图像中所有目标的显著性:
[0023][0024]S(s
ij
)
表示最终显著图中
S
中每个空间位置上的显著性,由多张显著图
S
k
相加得到,如果大于1的区域,将被置为1;
[0025]优选的,步骤
(3)
中,根据步骤
(2)
所得显著性图
S
,根据
S
调整编码器网络输出得到的特征通道,调整后通道数计算式如下式:
[0026]C

C
min
+S(p
ij
)(C
max

C
min
)
[0027]C
表示调整后的通道数,
C
min
是显著性最弱的位置所对应的基本通道数,
C
max
是调整前特征通道数;
[0028]优选的,步骤
(4)
中,将传统图像压缩中的率

失真优化问题拓展至机器视觉失真,结合人眼视觉以及机器视觉的失真,以损失函数的形式端到端训练编码器

解码器,具体包括如下步骤:
[0029](41)
整体拓展后的率

失真优化问题采用以下计算式:
[0030]L

R+
λ
signal
D
signal
+
λ
task
D
t本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种面向机器视觉的端到端图像编码算法,包括如下步骤:
(1)
获取未压缩图像的检测结果及检测精度;
(2)
根据神经网络的解释性对检测结果进行机器视觉的显著性分析,以热力图的形式表示;
(3)
根据所得到机器视觉显著性图,调整分析变换后的潜在表示的通道数;
(4)
使用机器视觉和人眼视觉失真结合的损失函数,端到端训练编码器

解码器网络;
(5)
利用得到的模型进行实际图像的压缩和解压缩
。2.
如权利要求1所述的面向机器视觉的端到端图像编码算法,其特征在于步骤
(1)
中,将未压缩的原始图像输入目标检测器
YOLO
中,获取未压缩图像的检测结果及检测精度具体包括如下步骤:
(11)
将未压缩图像输入
YOLO
,获得检测结果
Pred
gt

Pred
gt
(cls

bbox

conf)

YOLO(x)
,其中,
Pred
gt
表示未压缩图像上的检测结果,包含三部分信息,类别信息
cls、
检测框信息
bbox
以及置信度信息
conf

(12)
在标签信息指导下,
YOLO
计算检测精度
mAP@0.5
以及
mAP@0.5∶0.95。3.
如权利要求1所述的面向机器视觉的端到端图像编码算法,其特征在于步骤
(2)
中,获取表示机器视觉显著性的显著图,具体包括如下步骤:
(21)
获取图像中每个目标的显著图
S
k

p
ij
表示显著图
S
k
中,每个空间位置上的重要性,其范围在0到
1。
σ
k
表示显著性阈值,当
p
ij
小于阈值时,该位置的显著性被置零,否则将保持原显著性;
(22)
将所有显著图进行融合,以一张显著图
S
表示图像中所有目标的显著性:
S(s
ij
)
表示最终显著图中
S
中每个空间位置上的显著性,由多张显著图
S
k
相加得到,如果大于1的区域,将被置为
1。4.
如权利要求1所述的面向机器视觉的端到端图像编码算法,其特征在于,步骤
(3)
中,根据步骤
(2)
所得显著性图
S
,根据
S
调整编码器网络输出得到的特征通道,调整后通道数计算式如下式:
C

C
min
+S(p
ij<...

【专利技术属性】
技术研发人员:徐媛媛熊皓萱
申请(专利权)人:河海大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1