【技术实现步骤摘要】
【国外来华专利技术】通过可变形卷积生成用于视频编解码的预测帧
[0001]引用并入
[0002]本公开要求于2021年5月13日提交的、申请号为17/319,932的美国专利申请“通过可变形卷积生成用于视频编解码的预测帧(Predicted Frame Generation by Deformable Convolution for Video Coding)”的优先权,该申请要求于2020年7月15日提交的、申请号为63/052,231的美国临时申请“通过可变形卷积生成预测帧(Predicted Frame Generation by Deformable Convolution)”的优先权。在先申请的公开内容通过引用整体并入本申请中。
[0003]本公开描述了总体上涉及基于人工神经网络的视频编解码的实施例。
技术介绍
[0004]本文中提供的
技术介绍
描述是为了大体上呈现本公开的上下文。在此
技术介绍
部分描述的程度上,当前署名的专利技术人的工作,以及在本公开提交时可能不具有作为现有技术的资格的描述的各方面,既不明确认为也不隐含认 ...
【技术保护点】
【技术特征摘要】
【国外来华专利技术】1.一种在视频编解码设备处进行视频编解码的方法,其特征在于,包括:通过可变形卷积深度神经网络DNN执行可变形卷积,以基于一组一个或多个先前已重建参考帧,生成一个或多个第一特征图;基于所述一个或多个第一特征图,生成预测帧;以及基于所述预测帧,重建当前帧。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:基于特征提取DNN,生成对应于所述一个或多个先前已重建参考帧的一组一个或多个第二特征图;以及使用偏移生成DNN,分别生成对应于所述一个或多个第二特征图的一个或多个偏移图,每个偏移图是基于所述偏移生成DNN的以下输入而生成的:对应于正在生成的所述偏移图的第二特征图,以及对应于目标帧的第二特征图,所述目标帧是所述一个或多个先前已重建参考帧其中之一,其中,所述一个或多个偏移图具有相同的目标帧。3.根据权利要求2所述的方法,其特征在于,当所述当前帧与所述一个或多个先前已重建参考帧是按显示顺序排列时,所述目标帧与所述当前帧相邻。4.根据权利要求2所述的方法,其特征在于,当所述当前帧是P帧时,所述目标帧是所述一个或多个先前已重建参考帧中的最后一帧;并且当所述当前帧是B帧时,所述目标帧是所述一个或多个先前已重建参考帧中按显示顺序在所述当前帧之前的帧中的最后一帧。5.根据权利要求2所述的方法,其特征在于,所述通过可变形卷积DNN执行可变形卷积,以生成一个或多个第一特征图包括:接收所述一个或多个第二特征图,作为所述可变形卷积DNN的输入;以及分别生成对应于所述一个或多个第二特征图的所述一个或多个第一特征图。6.根据权利要求5所述的方法,其特征在于,所述可变形卷积DNN包括一个或多个可变形卷积层,每个可变形卷积层与一个可变形卷积内核相关联,并且在对应于每个第二特征图的所述一个或多个可变形卷积层其中之一层,基于相应的可变形卷积内核和相应的第二特征图的偏移图,执行可变形卷积。7.根据权利要求1所述的方法,其特征在于,所述基于所述一个或多个第一特征图,生成预测帧包括:基于所述一个或多个第一特征图和所述一个或多个先前已重建参考帧,使用帧重建DNN重建一个或多个已对准帧;以及基于所述一个或多个已对准帧,使用帧合成DNN生成所述预测帧。8.根据权利要求1所述的方法,其特征在于,还包括:用四维4D张量作为输入,使用特征提取DNN生成4D特征张量,所述4D张量由所述一组一个或多个先前已重建参考帧形成,每个帧包括多个信道。9.根据权利要求8所述的方法,其特征在于,所述通过可变形卷积DNN执行可变形卷积,以生成一个或多个第一特征图包括:接收所述4D特征张量,作为所述可变形卷积DNN的输入;以及生成融合的已对准特征图。
10.根据权利要求9所述的方法,其特征在于,所述可变形卷积DNN包括一个或多个3D可变形卷积层,每个3D可变形卷积层与一个3D可变形卷积内核和一个3D偏移图相关联,并且在所述一个或多个可变形卷积层其中之一层,基于相应的3D可变形卷积内核和相应的3D偏移图,执行3D可变形卷积。11.根据权利要求9所述的方法,其特征在于,还包括:用所述融合的已对准特征图作为帧重建DNN的输入,使用所述帧重建DNN生成所述预测帧。12.一种神经网络训练方法,其特征在于...
【专利技术属性】
技术研发人员:蒋薇,王炜,丁鼎,刘杉,
申请(专利权)人:腾讯美国有限责任公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。