使用神经网络的视频解码制造技术

技术编号:38052402 阅读:5 留言:0更新日期:2023-06-30 11:18
一种数据流,包括指示符(IND)和表示视频或音频内容的数据(Fnn)。一种用于解码该数据流的方法,包括以下步骤:

【技术实现步骤摘要】
【国外来华专利技术】使用神经网络的视频解码


[0001]本专利技术涉及视听内容解码

[0002]具体地,它涉及一种用于解码数据流的方法,以及相关联的设备和数据流。

技术介绍

[0003]已经提出借助人工神经网络来压缩表示视频内容的数据。然后可以借助于另一人工神经网络来执行压缩数据的解码,例如,在Guo Lu等人的文章“DVC:An End

to

end Deep Video Compression Framework”,2019年IEEE/CVFConference on Computer Vision and Pattern Recognition(CVPR),Long Beach,CA,USA,2019年中的第10998至11007页。

技术实现思路

[0004]在这种情况下,本专利技术提出了一种用于解码包括指示符和表示音频或视频内容的数据的数据流的方法,该方法包括以下步骤:
[0005]‑
对所述指示符进行解码,以确定用于解码所述代表性数据的人工神经网络是编码在数据流中还是属于人工神经网络的预定集合;
[0006]‑
通过人工神经网络解码所述代表性数据。
[0007]这样的指示符因此允许解码器知道它将能够访问用于解码表示内容的数据的人工神经网络的方法。
[0008]如果通过解码指示符确定人工神经网络属于所述预定集合,则该解码方法可以包括解码神经网络的标识符。
[0009]本专利技术还以本身原创的方式提出了一种用于解码数据流的方法,该数据流包括表示音频或视频内容的数据,以及指定人工神经网络的预定集合中的一个人工神经网络的标识符,该方法包括以下步骤:
[0010]‑
解码标识符;
[0011]‑
借助于由已解码标识符指定的人工神经网络解码所述代表性数据。
[0012]该标识符的解码因此指示了在人工神经网络的预定集合中必须使用哪个人工神经网络,例如电子解码设备可以访问的人工神经网络的预定集合,如下文所解释的。
[0013]根据第一可能性,解码方法可以包括在存储单元中读取由已解码标识符识别的人工神经网络的参数。
[0014]可以提供的是,该存储单元存储代表形成随机访问解码器的第一人工神经网络的第一参数集和/或代表形成低等待时间解码器的第二人工神经网络的第二参数集。
[0015]此外,解码方法可以包括在不存在(例如,在诸如上述存储单元的存储单元内)与由已解码标识符识别的人工神经网络相关的数据的情况下生成错误消息的步骤。
[0016]根据第二可能性,解码方法可以包括从远程服务器接收由已解码标识符识别的人工神经网络的参数。
[0017]此外,解码方法可以包括:如果通过解码指示符确定人工神经网络被编码在数据
流中,则对包括在数据流中的对人工神经网络进行编码的数据进行解码,以便获得人工神经网络的参数。
[0018]根据可能的实施例,解码方法可以包括将人工神经网络的列表发射到用于控制数据流传输的设备的(初步)步骤。在某些实施例中,该人工神经网络的列表可以对应于上述预定集合。换句话说,在这种情况下,人工神经网络的预定集合可以包括(或由)该列表的人工神经网络形成。
[0019]该内容实际上可以是视频序列的第一部分,其中,该视频序列可以包括所述第一部分和第二部分。
[0020]在这种情况下,解码产生所述第一部分的所述代表性数据的步骤,该方法可以进一步包括借助于另一人工神经网络解码其他数据以产生第二部分的步骤。
[0021]根据可能的实施例,另一人工神经网络具有与所述人工神经网络相同的结构,这简化了电子解码设备内人工神经网络的更新。
[0022]第一部分和上述第二部分分别形成例如两组图像,用于表示所使用的内容的格式。
[0023]本专利技术还提出了解码设备,包括:
[0024]‑
用于接收数据流的单元,所述数据流包括指示符和表示音频或视频内容的数据;
[0025]‑
解码组件,该解码组件被设计成通过解码所述指示符来确定用于解码所述代表性数据的人工神经网络是属于人工神经网络的预定集合还是被编码在数据流中,并借助于人工神经网络来解码所述代表性数据。
[0026]本专利技术还提出解码设备,包括:
[0027]‑
用于接收数据流的单元,该数据流包括表示音频或视频内容的数据,以及指定人工神经网络的预定集合中的一个人工神经网络的标识符;
[0028]‑
解码组件,该解码组件被设计用于解码标识符,并借助于由已解码标识符指定的人工神经网络来解码所述代表性数据。
[0029]在下文描述的实施例中,这种解码组件包括被设计或编程为解码指示符和/或标识符的处理器,和/或被设计为在给定时间并行执行相同类型的多个操作并实现上述人工神经网络以解码上述代表性数据的并行化处理单元。
[0030]本专利技术还提出了一种数据流,该数据流包括表示音频或视频内容的数据,以及指示用于解码所述代表性数据的人工神经网络是否被编码在数据流中还是否属于人工神经网络的预定集合的指示符。
[0031]最后,本专利技术提出了数据流,该数据流包括表示音频或视频内容的数据,以及在人工神经网络的预定集合中指定用于解码所述代表性数据的一个人工神经网络的标识符。
[0032]当然,本专利技术的不同特征、替代方案和实施例可以根据各种组合相互关联,只要它们不是相互不兼容或排斥的。
附图说明
[0033]此外,从参照示出本专利技术的非限制性实施例的附图进行的所附描述中,本专利技术的各种其它特征将是显而易见的,并且其中:
[0034]‑
图1示出了在本专利技术框架内使用的电子编码设备;
[0035]‑
图2示出在图1的电子编码设备内实施的编码方法的步骤的流程图;
[0036]‑
图3是通过图2的方法获得的数据流的第一示例;
[0037]‑
图4是通过图2的方法获得的数据流的第二示例;
[0038]‑
图5是通过图2的方法获得的数据流的第三示例;
[0039]‑
图6是通过图2的方法获得的数据流的第四示例;
[0040]‑
图7示出了根据本专利技术实施例的电子编码设备;以及
[0041]‑
图8是示出在图7的电子解码设备内实施的解码方法的步骤的流程图。
具体实施方式
[0042]图1示出了使用至少一个人工神经网络8的电子编码设备2。
[0043]该电子编码设备2包括处理器4(例如微处理器)和并行化处理单元6,例如图形处理单元或GPU,或张量处理单元或TPU。
[0044]如图1中示意性示出,处理器4接收表示要压缩的音频或视频内容的数据P、B,这里是格式化数据P和内容数据是B。
[0045]格式数据P指示音频或视频内容的表示格式的特征,例如对于视频内容,图像尺寸(以像素为本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于解码数据流的方法,所述数据流包括指示符(IND;IND')和表示音频或视频内容的数据(Fnn),所述方法包括以下步骤:

解码(E60)所述指示符(IND;IND')以确定用于解码所述代表性数据(Fnn)的人工神经网络(18)是编码在所述数据流中还是属于人工神经网络的预定集合;

借助于所述人工神经网络(18)解码(E70)所述代表性数据(Fnn)。2.根据权利要求1所述的解码方法,其中,内容是视频序列的第一部分,所述视频序列包括所述第一部分和第二部分,其中,解码所述代表性数据的步骤产生所述第一部分,并且其中,所述方法进一步包括借助于另一人工神经网络解码其他数据以产生所述第二部分的步骤。3.根据权利要求2所述的解码方法,其中,所述另一人工神经网络具有与所述人工神经网络相同的结构。4.根据权利要求2或3所述的解码方法,其中,所述第一部分和所述第二部分分别形成用于表示所使用的内容的格式的两组图像。5.根据权利要求1至4中任一项所述的解码方法,包括将所述人工神经网络的列表(L)发射到用于控制所述数据流的传输的设备的步骤(E50)。6.根据权利要求1至5中任一项所述的解码方法,包括:如果通过解码所述指示符(IND)确定所述人工神经网络(18)属于所述预定集合,则解码(E62)神经网络(18)的标识符(Inn)。7.根据权利要求6所述的解码方法,包括在存储单元(12)中读取由已解码标识符(Inn)识别的所述人工神经网络(18)的参数。8.根据权利要求7所述的...

【专利技术属性】
技术研发人员:费利克斯
申请(专利权)人:丰达西翁必卡姆公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1