视频代码化的感受野一致卷积模型制造技术

技术编号：26074942 阅读：29 留言：0更新日期：2020-10-28 16:49

确定用于对块进行编码的模式决策的卷积神经网络包括特征提取层和多个分类器。非重叠卷积运算通过设置等于内核大小的步幅值来在特征提取层处执行。所述块具有N×N大小，并且所述块的最小分割输出具有S×S大小。每个分类器的分类层接收具有特征尺寸的特征映射。初始分类层接收所述特征映射作为最终特征提取层的输出。每个分类器通过以下操作来针对所述块中的大小为(αS)×(αS)的子块推断分割决策，其中，α是2的幂，且α＝2、……、N/S：在一些连续分类层处应用1×1内核，以减小相应特征尺寸；并且通过所述分类层中的最后一个分类层来输出与N/(αS)×N/(αS)×1输出映射对应的输出。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】视频代码化的感受野一致卷积模型
技术介绍
数字视频流可以使用帧或静止图像的序列来表示视频。数字视频可以用于各种应用，包括：例如，视频会议、高清视频娱乐、视频广告或用户生成的视频的共享。数字视频流可以包含大量数据，并且消耗用于处理、传输或存储视频数据的计算装置的大量计算或通信资源。已经提出了各种方法来减少视频流中的数据量，包括压缩和其它编码技术。多年来，视频编码器的代码化效率已经提高。代码化效率可以意味着以最低可能的比特率对视频进行编码，同时使失真最小化(即，同时维持一定级别的视频质量)。然而，提高的代码化效率已导致了增加的计算复杂度。也就是说，编码器需要更多的计算时间来实现提高的代码化效率。因而，需要以更少的计算时间(即，降低的计算复杂度)获得提高的代码化效率。
技术实现思路
所公开的实施方式的一个方面是一种用于确定用于在视频代码化时对块进行编码的模式决策的卷积神经网络(CNN)。该CNN包括用于提取用于确定模式决策的块的特征的特征提取层。非重叠卷积运算通过设置等于内核大小的步幅值来对特征提取层中的至少一个处的输入执行，模式决策包括对块的块分割，该块具有N×N大小，并且块的最小分割输出具有S×S大小。CNN还包括多个分类器。每个分类器包括分类层，该分类层中的每个分类层接收具有相应特征尺寸的相应特征映射。每个分类器配置为通过以下操作来针对块中的大小为(αS)×(αS)的子块推断分割决策，其中，α是2的幂，且α＝2、……、N/S：在分类层中的一些连续分类层处应用大小为1×1的内核，以减小相应特征尺寸；并且通过分类层中的最终...

【技术保护点】
1.一种用于确定在视频代码化时对块进行编码的模式决策的卷积神经网络，包括：/n特征提取层，所述特征提取层用于提取用于确定所述模式决策的所述块的特征，其中，通过设置等于内核大小的步幅值来对所述特征提取层中的至少一个处的输入执行非重叠卷积运算，所述模式决策包括对所述块的块分割，所述块具有N×N大小，并且所述块的最小分割输出具有S×S大小；以及/n多个分类器，所述多个分类器用于处理所述块的所述特征，其中：/n每个分类器包括分类层，所述分类层中的每个分类层用于接收具有相应特征尺寸的相应特征映射，/n每个分类器配置为通过以下操作来针对所述块中的大小为(αS)×(αS)的子块推断分割决策，其中，α是2的幂，且α＝2,……,N/S：/n在所述分类层中的一些连续分类层处应用大小为1×1的内核，以减小所述相应特征尺寸；以及/n通过所述分类层中的最终层来输出与N/(αS)×N/(αS)×1输出映射对应的输出。/n

【技术特征摘要】
【国外来华专利技术】20180918 US 16/134,165;20190228 US 16/289,1491.一种用于确定在视频代码化时对块进行编码的模式决策的卷积神经网络，包括：
特征提取层，所述特征提取层用于提取用于确定所述模式决策的所述块的特征，其中，通过设置等于内核大小的步幅值来对所述特征提取层中的至少一个处的输入执行非重叠卷积运算，所述模式决策包括对所述块的块分割，所述块具有N×N大小，并且所述块的最小分割输出具有S×S大小；以及
多个分类器，所述多个分类器用于处理所述块的所述特征，其中：
每个分类器包括分类层，所述分类层中的每个分类层用于接收具有相应特征尺寸的相应特征映射，
每个分类器配置为通过以下操作来针对所述块中的大小为(αS)×(αS)的子块推断分割决策，其中，α是2的幂，且α＝2,……,N/S：
在所述分类层中的一些连续分类层处应用大小为1×1的内核，以减小所述相应特征尺寸；以及
通过所述分类层中的最终层来输出与N/(αS)×N/(αS)×1输出映射对应的输出。

2.根据权利要求1所述的卷积神经网络，其中，进入所述特征提取层中的初始特征提取层的输入具有包括所述块和所述块的相邻像素的大小(N+1)×(N+1)×1，并且所述特征提取层的分支中的第一滤波器具有2k+1的内核大小和等于2k的步幅值，其中，k为整数。

3.根据权利要求1或2所述的卷积神经网络，其中，所述特征提取层中的最终层包括从所述特征提取层接收所述块的第一特征映射的级联层，其中，所述第一特征映射中的每一个具有S×S的大小。

4.根据权利要求1至3中任一项所述的卷积神经网络，其中，所述特征提取层包括等于所述块的可能四叉树分割决策的数目的分支数目，所述分支中的每一个包括所述特征提取层中的至少一个。

5.根据权利要求4所述的卷积神经网络，其中，所述特征提取层布置成使得所述分支中的每一个包括不同特征提取层，所述不同特征提取层不指代所述分支中的任何其它分支的所述特征提取层。

6.根据权利要求4或5所述的卷积神经网络，其中，所述多个分类器包括与所述分支中的相应分支对应的相应分类器，由相应分类器的初始分类层接收的所述特征映射被配置为针对所述块中的大小为(αS)×(αS)的子块推断所述分割决策，所述子块包括具有相应特征尺寸(N/2β)×(N/2β)的N个特征映射的卷积，其中，β为整数，且β＝0，……，(分支数目-1)。

7.根据权利要求1至4中任一项所述的卷积神经网络，其中，所述特征提取层中的初始特征提取层包括用于使用所述块的亮度数据作为输入来执行第一卷积运算的第一内核以及用于使用所述块的色度数据作为输入来执行第二卷积运算的第二内核，所述第一内核具有与所述第二内核不同的内核大小，并且其中，对所述块的所述块分割包括对所述块的所述亮度数据的分割。

8.根据权利要求7所述的卷积神经网络，其中，在所述初始特征提取层之后的第二滤波器提取层输出具有单个内核大小的相应特征映射。

9.根据权利要求7或8所述的卷积神经网络，其中，所述特征提取层布置成多个分支，每个分支与所述多个分类器中的相应一个分类器相关联，并且其中，所述分支中的每一个至少共享所述初始特征提取层。

10.根据权利要求1至9中任一项所述的卷积神经网络，其中，所述模式决策包括所述块的预测模式，所述多个分类器包括块分割分类器，并且所述卷积神经网络进一步包括多个预测模式分类器，其中：
多个预测模式分类器中的每一个包括至少一个分类层，所述分类层中的每个分类层接收具有相应特征尺寸的相应特征映射，并且每个分类器的初始分类层接收所述特征映射作为下述中的一个：所述特征提取层中的最终特征提取层的输出、或相应多个预测模式分类器的分类层的输出。

11.一种编码器，所述编码器包括根据权利要求1至10中任一项所述的卷积神经网络，其中，所述编码器被配置为使用由所述分类层中的最终层的输出所指示的一个或多个模式决策来对所述块进行编码。

12.一种使用卷积神经网络确定在视频代码化时对块进行编码的模式决策的方法，包括：
使用所述卷积神经网络的特征提取层来提取用于确定所述模式决策的所述块的特征，其中，通过设置等...

【专利技术属性】
技术研发人员：克劳迪诺·科埃略，阿基·库塞拉，山·李，达克·何，
申请(专利权)人：谷歌有限责任公司，
类型：发明
国别省市：美国;US

全部详细技术资料下载我是这个专利的主人