视频代码化的感受野一致卷积模型制造技术

技术编号:26074942 阅读:29 留言:0更新日期:2020-10-28 16:49
确定用于对块进行编码的模式决策的卷积神经网络包括特征提取层和多个分类器。非重叠卷积运算通过设置等于内核大小的步幅值来在特征提取层处执行。所述块具有N×N大小,并且所述块的最小分割输出具有S×S大小。每个分类器的分类层接收具有特征尺寸的特征映射。初始分类层接收所述特征映射作为最终特征提取层的输出。每个分类器通过以下操作来针对所述块中的大小为(αS)×(αS)的子块推断分割决策,其中,α是2的幂,且α=2、……、N/S:在一些连续分类层处应用1×1内核,以减小相应特征尺寸;并且通过所述分类层中的最后一个分类层来输出与N/(αS)×N/(αS)×1输出映射对应的输出。

【技术实现步骤摘要】
【国外来华专利技术】视频代码化的感受野一致卷积模型
技术介绍
数字视频流可以使用帧或静止图像的序列来表示视频。数字视频可以用于各种应用,包括:例如,视频会议、高清视频娱乐、视频广告或用户生成的视频的共享。数字视频流可以包含大量数据,并且消耗用于处理、传输或存储视频数据的计算装置的大量计算或通信资源。已经提出了各种方法来减少视频流中的数据量,包括压缩和其它编码技术。多年来,视频编码器的代码化效率已经提高。代码化效率可以意味着以最低可能的比特率对视频进行编码,同时使失真最小化(即,同时维持一定级别的视频质量)。然而,提高的代码化效率已导致了增加的计算复杂度。也就是说,编码器需要更多的计算时间来实现提高的代码化效率。因而,需要以更少的计算时间(即,降低的计算复杂度)获得提高的代码化效率。
技术实现思路
所公开的实施方式的一个方面是一种用于确定用于在视频代码化时对块进行编码的模式决策的卷积神经网络(CNN)。该CNN包括用于提取用于确定模式决策的块的特征的特征提取层。非重叠卷积运算通过设置等于内核大小的步幅值来对特征提取层中的至少一个处的输入执行,模式决策包括对块的块分割,该块具有N×N大小,并且块的最小分割输出具有S×S大小。CNN还包括多个分类器。每个分类器包括分类层,该分类层中的每个分类层接收具有相应特征尺寸的相应特征映射。每个分类器配置为通过以下操作来针对块中的大小为(αS)×(αS)的子块推断分割决策,其中,α是2的幂,且α=2、……、N/S:在分类层中的一些连续分类层处应用大小为1×1的内核,以减小相应特征尺寸;并且通过分类层中的最终层来输出与N/(αS)×N/(αS)×1输出映射对应的输出。每个分类器的初始分类层可以接收特征映射作为特征提取层中的最终特征提取层的输出。输出映射可以指示针对块的一个或多个模式决策。例如,输出映射可以指示分割决策。输出映射可以用于对块进行编码。另一方面是一种使用卷积神经网络(CNN)确定用于在视频代码化时对块进行编码的模式决策的方法。该方法包括:使用CNN的特征提取层来提取用于确定模式决策的块的特征,其中,非重叠卷积运算通过设置等于内核大小的步幅值来对特征提取层中的至少一个处的输入执行,模式决策包括对块的块分割,该块具有N×N大小,并且块的最小分割输出具有S×S大小。该方法还包括:通过CNN的其中每一个均包括分类层的多个分类器来推断模式决策。推断模式决策包括:通过每个分类层接收具有相应特征尺寸的相应特征映射;并且通过多个分类器中的相应分类器来针对块中的大小为(αS)×(αS)的子块推断分割决策,其中,α是2的幂,且α=2、……、N/S。推断模式决策包括:在分类层中的一些连续分类层处应用大小为1×1的内核,以将相应特征尺寸减小一半;并且通过分类层中的最终层来输出与N/(αS)×N/(αS)×1输出映射对应的输出。每个分类器的初始分类层可以接收特征映射作为特征提取层中的最终特征提取层的输出。如由输出指示的模式决策可以用于对块进行编码。另一方面是一种用于对图像块进行解码的设备。该设备包括:处理器,该处理器配置为执行方法,该方法包括:在压缩比特流中接收将图像块分割成子块的指示。编码器使用卷积神经网络(CNN)来确定图像块的分割,该卷积神经网络包括用于提取用于确定分割的块的特征,其中,非重叠卷积运算通过设置等于内核大小的步幅值来对特征提取层中的至少一个处的输入执行,块具有N×N大小,并且块的最小分割输出具有S×S大小。CNN还包括多个分类器,其中,每个分类器包括分类层,分类层中的每个分类层接收具有相应特征尺寸的相应特征映射。每个分类器配置为通过以下操作来针对块中的大小为(αS)×(αS)的子块推断分割决策,其中,α是2的幂,且α=2、……、N/S:在分类层中的一些连续分类层处应用大小为1×1的内核,以减小相应特征尺寸;并且通过分类层中的最终层来输出与N/(αS)×N/(αS)×1输出映射对应的输出。每个分类器的初始分类层可以接收特征映射作为特征提取层中的最终特征提取层的输出。该方法还包括:使用图像块的分割的指示来对图像块进行解码。所公开的实施方式的另一方面是一种用于确定视频代码化时的块分割的卷积神经网络(CNN),块具有N×N的大小,并且由CNN确定的最小分割的大小为S×S。CNN包括特征提取层;级联层,该级联层从特征提取层接收块的第一特征映射,其中,每个第一特征映射的大小为S×S;以及分类器。每个分类器包括分类层,每个分类层接收具有相应特征尺寸的第二特征映射。每个分类器配置为通过以下操作来针对块中的大小为(αS)×(αS)的子块推断分割决策,其中,α是2的幂,且α=2,……,N/S:在分类层中的至少一些连续分类层处应用大小为1×1的内核,以将相应特征尺寸减小一半;并且通过分类层中的最终层来输出与N/(αS)×N/(αS)×1输出映射对应的输出。另一方面是一种使用卷积神经网络(CNN)来确定视频代码化时的块分割的方法,块具有N×N大小,并且由CNN确定的最小分割的大小为S×S。该方法包括:使用CNN的特征提取层来提取块的第一特征映射,其中,每个第一特征映射的大小为S×S;使用CNN的级联层来级联块的第一特征映射;以及通过CNN的其中每一个均包括分类层的分类器来推断块分割。该推断包括:通过每个分类层接收具有相应特征尺寸的第二特征映射;通过每个分类器通过以下操作来针对块中的大小为(αS)×(αS)的子块推断分割决策,其中,α是2的幂,且α=2、……、N/S:在分类层中的一些连续分类层处应用大小为1×1内核,以将相应特征尺寸减小一半;并且通过分类层中的最终层来输出与N/(αS)×N/(αS)×1输出映射对应的输出。另一方面是一种用于对图像块进行解码的设备,该设备包括:处理器,该处理器在压缩比特流中接收将图像块四叉树分割成子块的指示,其中,编码器使用卷积神经网络(CNN)来确定图像块的四叉树分割;并且使用图像块的四叉树分割的指示来对图像块进行解码。CNN包括特征提取层;级联层,该级联层从特征提取层接收块的第一特征映射,其中,每个第一特征映射的大小为S×S;以及分类器。每个分类器包括分类层。每个分类层接收具有相应特征尺寸的第二特征映射。每个分类器配置为通过以下操作来针对块中的大小为(αS)×(αS)的子块推断分割决策,其中,α是2的幂,且α=2、……、N/S:在分类层中的一些连续分类层处应用大小为1×1的内核,以将相应特征尺寸减小一半;并且通过分类层中的最终层来输出与N/(αS)×N/(αS)×1输出映射对应的输出。在以下对实施例、所附权利要求书和附图的详细描述中公开了本公开的这些和其它方面。附图说明本文中的描述参考了附图,其中,贯穿若干视图,相似的附图标记表示相似的部分。图1是视频编码和解码系统的示意图。图2是可以实施发送站或接收站的计算装置的示例的框图。图3是要编码且随后解码的视频流的图式。图4是根据本公开的实施方式的编码器的框图。图5是根据本公开的实施方式的解码器的框图。图6是根据本公开的实施方式的帧的部分的表示的框图。图7本文档来自技高网...

【技术保护点】
1.一种用于确定在视频代码化时对块进行编码的模式决策的卷积神经网络,包括:/n特征提取层,所述特征提取层用于提取用于确定所述模式决策的所述块的特征,其中,通过设置等于内核大小的步幅值来对所述特征提取层中的至少一个处的输入执行非重叠卷积运算,所述模式决策包括对所述块的块分割,所述块具有N×N大小,并且所述块的最小分割输出具有S×S大小;以及/n多个分类器,所述多个分类器用于处理所述块的所述特征,其中:/n每个分类器包括分类层,所述分类层中的每个分类层用于接收具有相应特征尺寸的相应特征映射,/n每个分类器配置为通过以下操作来针对所述块中的大小为(αS)×(αS)的子块推断分割决策,其中,α是2的幂,且α=2,……,N/S:/n在所述分类层中的一些连续分类层处应用大小为1×1的内核,以减小所述相应特征尺寸;以及/n通过所述分类层中的最终层来输出与N/(αS)×N/(αS)×1输出映射对应的输出。/n

【技术特征摘要】
【国外来华专利技术】20180918 US 16/134,165;20190228 US 16/289,1491.一种用于确定在视频代码化时对块进行编码的模式决策的卷积神经网络,包括:
特征提取层,所述特征提取层用于提取用于确定所述模式决策的所述块的特征,其中,通过设置等于内核大小的步幅值来对所述特征提取层中的至少一个处的输入执行非重叠卷积运算,所述模式决策包括对所述块的块分割,所述块具有N×N大小,并且所述块的最小分割输出具有S×S大小;以及
多个分类器,所述多个分类器用于处理所述块的所述特征,其中:
每个分类器包括分类层,所述分类层中的每个分类层用于接收具有相应特征尺寸的相应特征映射,
每个分类器配置为通过以下操作来针对所述块中的大小为(αS)×(αS)的子块推断分割决策,其中,α是2的幂,且α=2,……,N/S:
在所述分类层中的一些连续分类层处应用大小为1×1的内核,以减小所述相应特征尺寸;以及
通过所述分类层中的最终层来输出与N/(αS)×N/(αS)×1输出映射对应的输出。


2.根据权利要求1所述的卷积神经网络,其中,进入所述特征提取层中的初始特征提取层的输入具有包括所述块和所述块的相邻像素的大小(N+1)×(N+1)×1,并且所述特征提取层的分支中的第一滤波器具有2k+1的内核大小和等于2k的步幅值,其中,k为整数。


3.根据权利要求1或2所述的卷积神经网络,其中,所述特征提取层中的最终层包括从所述特征提取层接收所述块的第一特征映射的级联层,其中,所述第一特征映射中的每一个具有S×S的大小。


4.根据权利要求1至3中任一项所述的卷积神经网络,其中,所述特征提取层包括等于所述块的可能四叉树分割决策的数目的分支数目,所述分支中的每一个包括所述特征提取层中的至少一个。


5.根据权利要求4所述的卷积神经网络,其中,所述特征提取层布置成使得所述分支中的每一个包括不同特征提取层,所述不同特征提取层不指代所述分支中的任何其它分支的所述特征提取层。


6.根据权利要求4或5所述的卷积神经网络,其中,所述多个分类器包括与所述分支中的相应分支对应的相应分类器,由相应分类器的初始分类层接收的所述特征映射被配置为针对所述块中的大小为(αS)×(αS)的子块推断所述分割决策,所述子块包括具有相应特征尺寸(N/2β)×(N/2β)的N个特征映射的卷积,其中,β为整数,且β=0,……,(分支数目-1)。


7.根据权利要求1至4中任一项所述的卷积神经网络,其中,所述特征提取层中的初始特征提取层包括用于使用所述块的亮度数据作为输入来执行第一卷积运算的第一内核以及用于使用所述块的色度数据作为输入来执行第二卷积运算的第二内核,所述第一内核具有与所述第二内核不同的内核大小,并且其中,对所述块的所述块分割包括对所述块的所述亮度数据的分割。


8.根据权利要求7所述的卷积神经网络,其中,在所述初始特征提取层之后的第二滤波器提取层输出具有单个内核大小的相应特征映射。


9.根据权利要求7或8所述的卷积神经网络,其中,所述特征提取层布置成多个分支,每个分支与所述多个分类器中的相应一个分类器相关联,并且其中,所述分支中的每一个至少共享所述初始特征提取层。


10.根据权利要求1至9中任一项所述的卷积神经网络,其中,所述模式决策包括所述块的预测模式,所述多个分类器包括块分割分类器,并且所述卷积神经网络进一步包括多个预测模式分类器,其中:
多个预测模式分类器中的每一个包括至少一个分类层,所述分类层中的每个分类层接收具有相应特征尺寸的相应特征映射,并且每个分类器的初始分类层接收所述特征映射作为下述中的一个:所述特征提取层中的最终特征提取层的输出、或相应多个预测模式分类器的分类层的输出。


11.一种编码器,所述编码器包括根据权利要求1至10中任一项所述的卷积神经网络,其中,所述编码器被配置为使用由所述分类层中的最终层的输出所指示的一个或多个模式决策来对所述块进行编码。


12.一种使用卷积神经网络确定在视频代码化时对块进行编码的模式决策的方法,包括:
使用所述卷积神经网络的特征提取层来提取用于确定所述模式决策的所述块的特征,其中,通过设置等...

【专利技术属性】
技术研发人员:克劳迪诺·科埃略阿基·库塞拉山·李达克·何
申请(专利权)人:谷歌有限责任公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1