基于神经网络的视频编解码处理方法和装置制造方法及图纸

技术编号:17747428 阅读:48 留言:0更新日期:2018-04-18 21:24
本发明专利技术公开了一种结合深度神经网络的视频编解码的方法和装置,使用DNN(Deep Neural Network,深度神经网络)处理目标信号,其中提供给DNN输入的目标信号对应于重建残差,预测过程、重建过程、一个或多个过滤过程或其组合的输出。来自DNN输出的输出数据被提供用于编码处理或解码处理。DNN可用于复原目标信号的像素值或预测目标信号与原始信号之间的一个或多个残差像素的符号。一个或多个残差像素的绝对值可以在视频比特流中通过信号发送,并与符号一起使用以减少目标信号的残差。

【技术实现步骤摘要】
【国外来华专利技术】基于神经网络的视频编解码处理方法和装置优先权声明本专利技术要求于2015年9月3日提交的申请号为62/214,121的美国临时专利申请的优先权,其整体以引用的方式并入本文。
本专利技术涉及视频编解码的一般领域。特别地,涉及在视频编解码系统中将深度神经网络(DeepNeuralNetwork,DNN)应用于目标信号,其中提供给DNN输入端的目标信号对应于重建残差、来自预测过程、重建过程、所述至少一个过滤过程、或者它们的任何组合的输出。
技术介绍
神经网络,也被称为“人工”神经网络(ArtificialNeuralNetwork,ANN),是一种信息处理系统,其具有与生物神经网络相同的某些性能特征。神经网络系统由许多简单且高度互连的处理部件组成,以通过这些处理部件的对应于外部输入的动态信息来处理信息。处理部件可以被认为是人脑中的神经元,其中每个感知器(perceptron)接收多个输入并且计算输入的加权和。在神经网络领域,感知器被认为是生物神经元的数学模型。此外,这些互联的处理部件通常集结成层。对于识别应用,外部输入可以对应于网络中展示的模式,网络与一个或多个中间层(也被称为“隐藏层”)通信,其中实际过程是通过加权“连接”的系统完成。人工神经网络可以使用不同的架构来指定网络中包括哪些变量以及它们之间的拓扑关系。例如神经网络中包括的变量可以是神经元之间连接的权重,其随着神经元的活动而变化。前馈网络是神经网络拓扑结构中的一种类型,其中每层中的节点被馈送到下一级,并且在同一层中的节点之间存在连接。大多数人工神经网络包含某种形式的“学习规则”,其根据所提出的输入模式修改连接的权重。在某种意义上,人工神经网络和他们类似的生物神经网络一样,都是通过示例学习的。反向传播神经网络是一个更为先进的神经网络,其允许权重调整的反向错误传播。因此,反向传播神经网络能够通过将向神经网络反馈的误差最小化来改善性能。深度多层神经网络或深度神经网络(deepneuralnetwork,DNN)对应于具有多层互连节点的神经网络,允许其简洁地(compactly)表示高度非线性和高度变化的功能。然而,DNN的计算复杂度随着与大量的层相关的节点的数量的增加而急剧增加。直到最近,开发了一些有效的计算方法来训练这样的深度神经网络。其中,Hinton等人提出了一种逐层贪婪无监督学习过程,其依赖于受限玻尔兹曼机(restrictedBoltzmannmachines,RBM)训练算法来初始化深度信念网络(deepbeliefnetwork,DBN)的参数。(Hinton等人“Afastlearningalgorithmfordeepbeliefnets”,NeuralComputation,第18卷,第1527-1554页,2006年)。Bengio等人提出了另一种逐层贪婪无监督学习过程。(“Greedylayer-wisetrainingofdeepnetworks”,AdvancesinNeuralInformationProcessingSystems19,作者:等,153-160页,MIT出版,2007年)。Ranzato等人开发了另一种有效的训练算法。(“Efficientlearningofsparserepresentationswithanenergy-basedmodel”,AdvancesinNeuralInformationProcessingSystems19,作者:等,153-160页,MIT出版,2007年)。因为在DNN训练方面取得突破性进展,DNN已成功应用于诸如语音识别、图片分割、物体检测、面部识别等各种复杂任务。随着DNN在各个领域的成功,希望探索将DNN应用于视频编解码的潜力。具体而言,期望进一步改进诸如高效视频编解码(HighEfficiencyVideoCoding,HEVC)的新兴视频编解码标准的性能。高效视频编解码(HighEfficiencyVideoCoding,HEVC)标准是在ITU-T视频编解码专家组(VideoCodingExpertsGroup,VCEG)和ISO/IEC移动图片专家组(MovingPictureExpertsGroup,MPEG)标准化组织的联合视频项目下开发的,其合作关系被称为视频编解码联合合作小组(JointCollaborativeTeamonVideoCoding,JCT-VC)。在HEVC中,一个片被划分为多个编码树单元(CTU)。CTU被进一步划分为多个编码单元(codingunit,CU)以适应各种局部特征。HEVC支持多种帧内预测模式,且对于帧内预测编解码CU,所选择的帧内预测模式通过信号传递。除了编码单元的概念之外,HEVC中还引入了预测单元(predictionunit,PU)的概念。一旦CU分层树的划分完成,根据预测类型和PU(predictionunit,预测单元)分区将每一个叶CU进一步划分成一个或多个预测单元(predictionunit,PU)。在预测之后,将与CU相关的残差划分为转换块,其被称为用于转换过程的转换单元(TransformUnit,TU)。图1A是基于HEVC的自适应帧内/帧间视频编码器的实施例。当采用帧间模式时,帧内/帧间预测单元110基于运动估计(MotionEstimation,ME)/运动补偿(MotionCompensation,MC)生成帧间预测。当采用帧内模式时,帧内/帧间预测单元110生成帧内预测。帧内/帧间预测数据(即,帧内/帧间预测信号)被提供给减法器116以通过从与输入图片相关的信号中减去帧内/帧间预测信号来生成预测误差,其也被称为残差。生成帧内/帧间预测数据的过程在本专利技术中被认为是预测过程。随后在对预测误差(即,残差)进行转换(T)过程,随后经过量化(Q)过程(T+Q,120)。经过转换和量化过程的残差随后被熵编解码单元122编码,存储对应压缩视频数据的视频比特流中。然后,将与转换系数相关联的比特流与诸如运动、编解码模式以及其他与图片区域相关的信息之类的边信息一起打包。边信息也可以通过熵编解码来压缩以减少所需的带宽。由于重建的图片可以作为帧间预测的参考图片使用,参考图片也必须在编码器端重建。因此,经过转换和量化过程的残差经过反向量化(IQ)过程和反向转换(IT)(IQ+IT,124)过程以重建残差。重建残差随后被加回重建器(REC)128中的帧内/帧间预测数据以重建视频数据。在本专利技术中向帧内/帧间预测信号加上重建残差的过程被认为是重建处理。来自重建处理的输出图片被认为是重建图片。为了减少重建图片中的伪影,使用包括去块滤波器(DeblockingFilter,DF)130和采样自适应偏移(SampleAdaptiveOffset,SAO)132的环路内滤波器。在本专利技术中,所有滤波处理的输出处的滤波的重构图片被称为解码图片。解码图片储存于帧缓冲器140中,并用于其他帧的预测。图1B是基于HEVC的自适应帧内/帧间视频解码器的实施例。因为编码器还包括用于重建视频数据的本地解码器,除了熵解码器210,一些解码器组件已经在编码器中被使用。在解码器侧,熵解码单元160被用于复原比特流中的编解码码元或语法。在本文档来自技高网...
基于神经网络的视频编解码处理方法和装置

【技术保护点】
一种用于视频解码器的视频解码方法,其特征在于,所述方法包括:接收视频序列中对应于一个或多个图片的视频比特流;使用解码处理对每个所述图片进行解码,所述解码处理包括以下处理的一个或组合:从所述视频比特流生成重建的残差的残差解码处理,生成与每个所述图片相关的预测信号的预测处理,根据所述重建残差和所述预测信号生成重建图片的重建处理,以及至少一个用于所述重建图片的滤波处理;使用深度神经网络处理目标信号,其中被提供给所述深度神经网络输入的所述目标信号对应于所述重建残差,所述预测处理的输出、所述重建处理或者所述至少一个滤波处理或者其组合;以及为所述解码处理提供来自深度神经网络输出的输出数据。

【技术特征摘要】
【国外来华专利技术】2015.09.03 US 62/214,1211.一种用于视频解码器的视频解码方法,其特征在于,所述方法包括:接收视频序列中对应于一个或多个图片的视频比特流;使用解码处理对每个所述图片进行解码,所述解码处理包括以下处理的一个或组合:从所述视频比特流生成重建的残差的残差解码处理,生成与每个所述图片相关的预测信号的预测处理,根据所述重建残差和所述预测信号生成重建图片的重建处理,以及至少一个用于所述重建图片的滤波处理;使用深度神经网络处理目标信号,其中被提供给所述深度神经网络输入的所述目标信号对应于所述重建残差,所述预测处理的输出、所述重建处理或者所述至少一个滤波处理或者其组合;以及为所述解码处理提供来自深度神经网络输出的输出数据。2.根据权利要求1所述的用于视频解码器的视频解码方法,其特征在于,所述至少一个滤波处理包括去块滤波器、取样自适应偏移、自适应环路滤波器或者其组合。3.根据权利要求2所述的用于视频解码器的视频解码方法,其特征在于,被提供给所述深度神经网络输入的所述目标信号对应于所述去块滤波器、所述取样自适应偏移或者所述自适应环路滤波器的输出。4.根据权利要求2所述的用于视频解码器的视频解码方法,其特征在于,来自所述深度神经网络输出的所述输出数据被作为解码图片或者提供给所述去块滤波器、所述取样自适应偏移或者所述自适应环路滤波器作为输入。5.根据权利要求1所述的用于视频解码器的视频解码方法,其特征在于,所述深度神经网络被用于复原所述目标信号的像素值。6.根据权利要求1所述的用于视频解码器的视频解码方法,其特征在于,所述深度神经网络被用于预测所述目标信号和原始信号之间的一个或多个残差像素的符号。7.根据权利要求6所述的用于视频解码器的视频解码方法,其特征在于,所述一个或多个残差像素的绝对值取决于所述视频比特流,其中所述绝对值和所述一个或多个残差像素的符号被用于减少所述一个或多个残差像素的残差误差。8.根据权利要求1所述的用于视频解码器的视频解码方法,其特征在于,所述深度神经网络的深度神经网络参数针对所述视频解码器预先设置。9.根据权利要求8所述的用于视频解码器的视频解码方法,其特征在于,多组所述深度神经网络参数可供所述视频解码器选择。10.根据权利要求9所述的用于视频解码器的视频解码方法,其特征在于,在所述多组深度神经网络参数中的选择取决于所述视频比特流或者隐性取决于所述视频解码器。11.根据权利要求10所述的用于视频解码器的视频解码方法,其特征在于,在所述多组深度神经网络参数中的所述选择取决于视频比特流的序列级、图片级、片级、编码树单元级或者编码单元级。12.根据权利要求10所述的用于视频解码器的视频解码方法,其特征在于,在所述多组深度神经网络参数中的所述选择是由所述视频解码器侧决定,所述选择取决于片类型、量化参数、预测模式、量化系数、所述重建残差、预测器、重建像素、运动信息,或其任意组合。13.根据权利要求1所述的用于视频解码器的视频解码方法,其特征在于,所述深度神经网络的所述深度神经网络参数取决于所述视频比特流。14.根据权利要求13所述的用于视频解码器的视频解码方法,其特征在于,所述深度神经网络参数取决于视频比特流的序列级、图片级、片级、编码树单元级或者编码单元级。15.根据权利要求1所述的用于视频解码器的视频解码方法,其特征在于,开/关控制标记被用于指示所述深度神经网络是被启用或停用。16.根据权利要求15所述的用于视频解码器的视频解码方法,其特征在于,所述开/关控制标记取决于所述视频比特流的序列级、图片级、片级、编码树单元级或者编码单元级。17.根据权利要求1所述的用于视频解码器的视频解码方法,其特征在于,所述深度神经网络输入对应于所述重建残差且所述深度神经网络输出被提供给所述重建处理。18.根据权利要求1所述的用于视频解码器的视频解码方法,其特征在于,所述深度神经网络将包括所述重建残差的多个深度神经网络输入作为一个深度神经网络输入。19.根据权利要求18所述的用于视频解码器的视频解码方法,其特征在于,所述多个深度神经网络输入对应于所述重建残差和所述预测信号,以及所述深度神经网络向所述至少一个滤波处理提供所述重建图片作为所述深度神经网络输出。20.根据权利要求1所述的用于视频解码器的视频解码方法,其特征在于,每个图片被划分为块以用于解码处理,所述使用深度神经网络处理目标信号包括使用用于处理所述目标信号的至少一个样本的一个或多个相邻样本,以及如果当前块的所述一个或多个相邻样本中的任何一个在块的边界处不可用,则不可用的所述相邻样本是由使用填充技术生成的或者跳过所述使用深度神经网络处理所述目标信号。21.根据权利要求20所述的用于视频解码器的视频解码方法,其特征在于,每一个区域对应于一个图片、一个片、一个编码树单元行、一个编码树单元、一个编码单元、一个预测单元、一个变换单元或者一个块。22.根据权利要求1所述的用于视频解码器的视频解码方法,其特征在于,所述目标信号与多个图片相关。23.根据权利要求22所述的用于视频解码器的视频解码方法,其特征在于,在所述使用深度神经网络处理目标信号之前所述多个图片预先对齐,来自所述多个图片的对应的单元的像素基于与所述多个图片的所述对应单元的运动信息对...

【专利技术属性】
技术研发人员:黄毓文孙域晨庄子德林建良陈庆晔
申请(专利权)人:联发科技股份有限公司
类型:发明
国别省市:中国台湾,71

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1