使用特征图减小来编解码机器视觉数据的方法和设备技术

技术编号:39416619 阅读:8 留言:0更新日期:2023-11-19 16:07
公开了一种用于使用特征图的减小对机器视觉数据进行编解码的设备和方法。为了减小由机器任务专用深度学习模型提取的特征图的大小,提供一种机器视频编解码(VCM)编解码设备和方法。VCM编解码设备和方法利用减小特征图的空间和通道方面的冗余的稀疏方法,并且VCM编解码设备和方法也利用基于张量分解的特征图分解方法。图分解方法。图分解方法。

【技术实现步骤摘要】
【国外来华专利技术】使用特征图减小来编解码机器视觉数据的方法和设备


[0001]本公开涉及一种用于使用特征图减小来编解码机器视觉数据的设备和方法


技术介绍

[0002]该部分中的陈述仅提供与本公开相关的背景信息,并且不一定构成现有技术

[0003]随着深度学习技术和计算能力的进步,伴随着机器视觉应用的激增,机器逐渐实现为利用大部分视频业务

机器对机器应用预期在未来占据互联网视频流量的最大部分

因此,优化机器所使用的视频数据中的信息的方式可能是视频处理技术的创新和新解决方案的商业化的关键因素

[0004]现有视频编解码方案针对人类视觉进行优化,因为现有视频编解码方案针对某些比特率约束下的最佳图片或视频质量

相对照地,对于机器视觉的编解码,重构的图像
/
视频不一定必须保持高视觉性能

在延时和规模上具有严格限制的

(
包括连接的车辆

物联网
(IoT)
装置

超大型视频监控网络

智能城市

质量检查等
)
的出现引领了用于机器视觉的新范例,从而严格地需要针对机器视觉的新图像
/
视频编解码方法

[0005]因而,运动图像专家组
(MPEG)——
标准化组织讨论了机器视觉的标准化的需要,导致提出作为下一代视频编解码设备来提供机器视觉数据的压缩编解码和人机混合视觉的压缩编码的机器视频编解码
(VCM)。
[0006]虽然
VCM
编解码设备的结构可能存在许多变化,但是在图1中示出了
VCM
编解码设备的基本结构

当接收到作为传感器的输出的视频时,
VCM
编码器提取特征作为用于机器视觉的信息,根据需要转换特征,然后执行特征编码

此外,
VCM
编码器可以参考在编码输入图像或视频时的编码特征

最后,
VCM
编码器对用于机器视觉的特征和输入图像
(
或残差图像
)
进行编码以生成比特流
。VCM
编码器复用每个通过编码特征和视频而生成的比特流,并将比特流一起发送

[0007]VCM
解码器将传输的比特流解复用为特征比特流和视频比特流,然后分别对特征和视频进行解码

当解码视频时,
VCM
解码器可以参考重构的特征

在逆转换之后,重构的特征可同时用于机器视觉和人类视觉

[0008]此外,在图1的示例中,用于神经网络
(NN)
的接口可以用于在
VCM
编码器处应用深度学习模型以提取特征,并且在
VCM
解码器处应用深度学习模型以执行用于机器视觉的任务等

[0009]具体地,机器视觉的代表类型的信息是由机器任务专用深度学习模型提取的特征图

如果
VCM
编码器发送特征图而不是发送图像
/
视频,则包括
VCM
解码器的云服务器上的计算负荷可以显著减小,这具有个人信息保护的附加益处

然而,特征图
(
多通道的堆叠阵列
)
固有地大于正常图像
/
视频

此外,深度学习模型的特定层的输出特征图的大小可以小于输入图像
/
视频

然而,这一益处被相应的层随着深度学习模型改变而改变的问题所抵消

[0010]如果特征图过于大于输入图像
/
视频,那么计算负荷减小

隐私保护等前述优点可能会衰减

因此,需要设计一种通过反映所提取的特征图的特性来减小所提取的特征图的
大小的先进方法


技术实现思路

[0011]【
技术问题

[0012]本公开试图提供一种用于机器视频编解码
(VCM)
编解码设备和方法,其用于利用减小特征图的空间和通道方面的冗余的稀疏化方法,并且用于利用基于张量分解的特征图分解方法,以减小由机器任务专用深度学习模型提取的特征图的大小

[0013]【
技术方案

[0014]本公开的至少一个方面提供了一种由机器视觉编码设备执行的用于对特征图进行编码的编码方法

所述编码方法包括使用深度学习模型从输入图像中提取特征图

从深度学习模型的中间层生成特征图

编码方法还包括通过减小特征图的大小来生成减小的特征图

编码方法还包括通过转换减小的特征图的数据类型并重新布置减小的特征图来生成转换的特征图

编码方法还包括通过使用视频编码器编码转换的特征图来生成比特流

[0015]本公开的另一方面提供了一种机器视觉编码设备

该设备包括被配置为使用深度学习模型从输入图像提取特征图的特征提取器

从深度学习模型的中间层生成特征图

设备还包括特征减小器,被配置为减小特征图的大小以生成减小的特征图

设备还包括预量化器,被配置为量化减小的特征图以转换减小的特征图的数据类型

设备还包括重封装器,被配置为以视频序列的形式重新布置量化的特征图以生成转换的特征图

设备还包括特征编码器,被配置为通过使用视频编码器对转换的特征图进行编码以生成比特流

[0016]本公开的另一方面提供了一种由机器视觉解码设备执行的解码方法

所述解码方法包括使用视频解码器从比特流解码转换的特征图

解码方法还包括通过重新布置转换的特征图且通过转换重新布置的转换的特征图的数据类型来重构减小的特征图

解码方法还包括通过扩展减小的特征图的大小来生成重构的特征图

重构的特征图对应于从机器视觉编码设备中的深度学习模型的中间层生成的特征图

[0017]【
有益效果

[0018]如上所述,本公开提供
VCM
编解码设备和方法,其对于由专门用于机器任务的深度学习模型提取的特征图利用减小特征图的空间和通道方面的冗余度的稀疏化方法
。VCM
编解码设备和方法还利用基于张量分解的特征图分解方法

由此,特征图的大小可减小

[0019]此外,本公开提供一本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.
一种由机器视觉编码设备执行的用于对特征图进行编码的编码方法,所述编码方法包括:使用深度学习模型从输入图像提取所述特征图,其中,所述特征图从所述深度学习模型的中间层生成;通过减小所述特征图的大小来生成减小的特征图;通过转换所述减小的特征图的数据类型并重新布置所述减小的特征图来生成转换的特征图;以及通过使用视频编码器编码所述转换的特征图而生成比特流
。2.
根据权利要求1所述的编码方法,其中,所述特征图包括:与存在的通道同样多的具有相等高度和相等宽度的
2D
特征图
。3.
根据权利要求1所述的编码方法,其中,生成所述减小的特征图包括:基于所述特征图的空间或通道方面的特征图稀疏化来减小所述特征图
。4.
根据权利要求3所述的编码方法,其中,生成所述减小的特征图包括:用所述特征图稀疏化和组合的张量分解来减小所述特征图
。5.
根据权利要求3所述的编码方法,其中,生成所述减小的特征图包括:当构成所述特征图的
2D
特征图具有特征值小于预设阈值的区域时,将所述区域的特征值设置为零
。6.
根据权利要求3所述的编码方法,其中,生成所述减小的特征图包括:计算具有预设通道跨度的两个
2D
特征图之间的距离;选择具有小于预设阈值的距离的所有
2D
特征图对;以及对于所选的所有对中的每一者,将一个
2D
特征图的所有值稀疏化为零或删除所述一个
2D
特征图
。7.
根据权利要求6所述的编码方法,其中,生成所述比特流包括:在所述一个
2D
特征图被稀疏化时对稀疏的
2D
特征图和所述预设通道跨度进行编码;或当所述一个
2D
特征图被删除时,对所删除的
2D
特征图的索引和所述预设通道跨度进行编码
。8.
根据权利要求1所述的编码方法,其中,生成所述减小的特征图包括:基于张量分解来减小所述特征图
。9.
根据权利要求8所述的编码方法,其中,生成所述减小的特征图包括:通过使用
Tucker
分解将所述特征图分解成一个核张量和三个因子矩阵
。10.
根据权利要求8所述的编码方法,其中,生成所述减小的特征图包括:通过使用规范多元分解
(CP)
将所述特征图分解成
P
个秩1张量
(
其中,
P
是自然数
)。11.
一种机器视觉编码设备,包括:特征提取器,被配置为使用深度学习模型从输入图像中提取特征图,其中,所述特征图从所述深度学习模型的中间层生成;特征减小器,被配置为减小所述特征图的大小以生成减小的特征图;预量化器,被配置为量化所述减小的特征图以转换所述减小的特...

【专利技术属性】
技术研发人员:姜制远兪彩花朴胜煜
申请(专利权)人:起亚株式会社梨花女子大学校产学协力团
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1