支持机器智能的通用视频压缩编码方法技术

技术编号:26386022 阅读:114 留言:0更新日期:2020-11-19 23:55
本发明专利技术公开了一种支持机器智能的通用视频压缩编码方法,针对机器智能分析任务进行压缩,将会得到能够实现相同机器智能分析任务时相较针对人眼压缩更高的压缩比,减少需要传输的信息,减轻传输负担;压缩得到特征能够直接应用于机器智能分析任务,不需要额外解码和处理,减少计算量,加速机器分析任务的进行,支持边缘计算的实现;此外,支持在编码压缩之前对原视频/图像上进行部分分析,不仅可以提高智能分析精度,还可生成结构化压缩码流,并支持后续更多的智能分析任务。综上所述,上述方法能够使得面向机器进行视频/图像压缩这一过程更加的通用、灵活、高效。

【技术实现步骤摘要】
支持机器智能的通用视频压缩编码方法
本专利技术涉及视频/图像压缩编码
,尤其涉及一种支持机器智能的通用视频压缩编码方法。
技术介绍
现有视频/图像压缩标准主要针对的是面向人眼视觉的压缩,其目标是在人眼观看视频的失真一定的情况下,视频码率尽可能低。而随着机器学习的算法逐渐成熟,机器智能分析任务也逐渐开始被应用于人类社会生活生产的各个领域,例如智能工厂,智能城市,智能交通等等。实现这一系列应用往往伴随着对于大量视频/图像数据的分析,采用传统方法,视频/图像先用现有标准进行压缩,在进行分析前需要对压缩码流进行解码操作,得到压缩后的视频/图像,然后再对压缩恢复后的视频/图像进行分析。然而,存在如下问题:1)由于传统视频/图像压缩标准针对的是人眼视觉,压缩码流中可能用大量码率表示视频/图像分析中不需要的内容,这样会给传输带来沉重的负担。2)由于传统方法中需要解码恢复压缩的视频/图像,然后再进行分析,这样还将会造成时延,导致用户体验不佳。3)由于压缩恢复的视频/图像具有一定的失真,分析会出现错误甚至更加严重的问题。随着边缘计算和终端智能技术的发展,更多的机器智能分析能够在边缘服务器或者终端设备上对视频/图像进行处理分析,因此如果能够实现面向机器的编码方法,编码后码流中只包含对机器智能分析有用的内容,将会大大降低机器智能分析任务需要传输的数据量。同时编码后的码流可以直接用于机器智能分析的任务中,不必恢复压缩的视频/图像,因此可以减少计算时延,提高处理效率。因此将部分机器智能分析编码之前进行,提升码流的结构化功能,利于执行后续的智能分析任务。现有技术中,视觉搜索紧凑描述子国际标准(CDVS,CompactDescriptorsforVisualSearch)针对检索任务所需的视频/图像特征进行编码,在一定程度上满足了以上需求,但是其码流只能用于搜索任务,应用场景单一,不能满足更多通用智能应用对于压缩编码的需求。因此,非常需要一种支持机器智能的通用视频压缩编码方法。
技术实现思路
本专利技术的目的是提供一种支持机器智能的通用视频压缩编码方法,以实现针对各个任务所需视频/图像特征信息的编码,从而提高智能任务分析准确性,减轻数据传输压力。本专利技术的目的是通过以下技术方案实现的:一种支持机器智能的通用视频压缩编码方法,包括:帧内编码和帧间编码两部分;其中:帧内编码部分包括:对于输入视频帧,先进行物体检测,得到各个物体的空间位置信息和类别信息;基于各个物体的空间位置信息和类别信息进行属性解析、以及关系推理,获得各物体的属性信息、以及物体之间的拓扑关系;再将各个物体的空间位置信息和类别信息作为指导信息,利用物体的空间位置信息对输入视频帧进行编码单元的划分,并对划分后的编码单元进行编码,编码得到的码流中所包含的物体的类别信息用于帧间编码部分的视频帧重建过程;帧间编码部分包括:以输入视频帧或目标为单元进行视频帧的重建,并通过运动补偿,获得光流预测信息和残差编码信息;将帧内编码部分获得的各个物体的空间位置信息和类别信息、各物体的属性信息、物体之间的拓扑关系、编码后的编码单元、以及帧间编码部分获得的光流预测信息和残差编码信息进行熵编码,获得相应的码流。由上述本专利技术提供的技术方案可以看出,1)能够支持多种现有甚至未来可能出现的任务,应用范围广泛,具有较强的实际应用价值;2)针对机器智能分析任务进行压缩,将会得到能够实现相同机器智能分析任务时相较针对人眼压缩更高的压缩比,减少需要传输的信息,减轻传输负担。3)针对机器智能分析任务进行压缩,压缩得到特征能够直接应用于机器智能分析任务,不需要额外解码和处理,减少计算量,加速机器分析任务的进行,支持边缘计算的实现。4)通用的编码框架,支持在编码压缩之前对原视频/图像上进行部分分析,不仅可以提高智能分析精度,还可生成结构化压缩码流,并支持后续更多的智能分析任务。综上所述,上述方案能够使得面向机器进行视频/图像压缩这一过程更加的通用、灵活、高效。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。图1为本专利技术实施例提供的一种支持机器智能的通用视频压缩编码方法的框架图;图2为本专利技术实施例提供的编码处理示意图;图3为本专利技术实施例提供的帧内编码部分的码流结构示意图。具体实施方式下面结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术的保护范围。本专利技术实施例提供一种支持机器智能的通用视频压缩编码方法,区别于传统视频编码框架的编码模式,该方法利用基于深度机器学习的编码架构来进行压缩。编码处理单元的划分可以在像素域进行,也支持在隐变量域进行划分。如图1所示,主要包括:帧内编码和帧间编码两部分。一、帧内编码部分。如图2所示,帧内编码部分包含物体检测模块、编码器、空间关系推理模块、语义关系推理模块、属性解析模块。主要流程如下:对于输入视频帧xt,先进行物体检测,得到各个物体的空间位置信息和类别信息;然后结合视频帧xt内容对各个物体的空间位置信息和类别信息进一步进行挖掘,包括进行属性解析、以及关系推理,获得各物体的属性信息(以行人为例,属性信息包括了行人的各个身体部位的特征,比如,头部特征、上/下半身特征、配饰特征等)、以及物体之间的拓扑关系;再将各个物体的空间位置信息和类别信息作为指导信息,对输入视频帧进行编码单元的划分,并对划分后的编码单元进行编码。本专利技术实施例中,处理单元是视频中的目标(Object)和目标之外的背景,目标可以是包含一个或多个物体的矩形框,或者包含一个或多个物体的任意形状的封闭边界,如图2所示。本专利技术实施例中,所述关系推理包括:空间关系推理与语义关系推理;利用各物体的空间位置信息进行空间关系推理,获得各物体之间的空间关系;利用各物体的类别信息进行语义关系推理,获得各物体之间的语义关系;所述空间关系与语义关系,构成了拓扑关系。本专利技术实施例中,将各个物体的空间位置信息和类别信息作为指导信息。利用物体的空间位置信息对输入视频帧进行编码单元的划分,并对划分后的编码单元进行编码包括:根据物体的空间位置信息,将物体映射到待编码的隐变量空间,将隐变量(隐变量属于一种编码单元的形式)根据映射到的空间位置信息进行语义划分,得到语义对应的待编码隐变量,然后根据从上到下、从左到右的顺序对划分好的隐变量进行编码,编码得到的码流中还包含了物体的类别信息,将物体的类别信息作为帧间编码部分视频帧重建过程中解码器所需的物体标志信息,例如,如行人-1,车辆-2,行人-3等。二、帧间编码部本文档来自技高网
...

【技术保护点】
1.一种支持机器智能的通用视频压缩编码方法,其特征在于,包括:帧内编码和帧间编码两部分;其中:/n帧内编码部分包括:对于输入视频帧,先进行物体检测,得到各个物体的空间位置信息和类别信息;基于各个物体的空间位置信息和类别信息进行属性解析、以及关系推理,获得各物体的属性信息、以及物体之间的拓扑关系;再将各个物体的空间位置信息和类别信息作为指导信息,利用物体的空间位置信息对输入视频帧进行编码单元的划分,并对划分后的编码单元进行编码,编码得到的码流中所包含的物体的类别信息用于帧间编码部分的视频帧重建过程;/n帧间编码部分包括:以输入视频帧或目标为单元进行视频帧的重建,并通过运动补偿,获得光流预测信息和残差编码信息;/n将帧内编码部分获得的各个物体的空间位置信息和类别信息、各物体的属性信息、物体之间的拓扑关系、编码后的编码单元、以及帧间编码部分获得的光流预测信息和残差编码信息进行熵编码,获得相应的码流。/n

【技术特征摘要】
1.一种支持机器智能的通用视频压缩编码方法,其特征在于,包括:帧内编码和帧间编码两部分;其中:
帧内编码部分包括:对于输入视频帧,先进行物体检测,得到各个物体的空间位置信息和类别信息;基于各个物体的空间位置信息和类别信息进行属性解析、以及关系推理,获得各物体的属性信息、以及物体之间的拓扑关系;再将各个物体的空间位置信息和类别信息作为指导信息,利用物体的空间位置信息对输入视频帧进行编码单元的划分,并对划分后的编码单元进行编码,编码得到的码流中所包含的物体的类别信息用于帧间编码部分的视频帧重建过程;
帧间编码部分包括:以输入视频帧或目标为单元进行视频帧的重建,并通过运动补偿,获得光流预测信息和残差编码信息;
将帧内编码部分获得的各个物体的空间位置信息和类别信息、各物体的属性信息、物体之间的拓扑关系、编码后的编码单元、以及帧间编码部分获得的光流预测信息和残差编码信息进行熵编码,获得相应的码流。


2.根据权利要求1所述的一种支持机器智能的通用视频压缩编码方法,其特征在于,所述关系推理包括:空间关系推理与语义关系推理;
利用各物体的空间位...

【专利技术属性】
技术研发人员:陈志波金鑫孙思萌冯若愚冯润森
申请(专利权)人:中国科学技术大学
类型:发明
国别省市:安徽;34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1