人工智能图像帧处理系统和方法技术方案

技术编号:34005096 阅读:13 留言:0更新日期:2022-07-02 13:09
用于流式传输视频内容的系统和方法包括使用按比例缩小模型来按比例缩小视频内容以生成按比例缩小的视频内容,以及将按比例缩小的视频内容作为视频流和对应的按比例放大模型下载到客户端设备。该系统将接收到的视频帧转换为视频存储器格式,该视频存储器格式包括具有相同存储器分配大小的通道,每个后续通道布置在相邻存储器位置中,以供到按比例缩小模型的输入。客户端设备使用接收到的按比例放大模型来按比例放大视频流以供由客户端设备实时显示。训练系统基于标识视频内容类型的相关联的元数据来训练按比例缩小模型以生成按比例缩小的视频内容。例缩小的视频内容。例缩小的视频内容。

【技术实现步骤摘要】
人工智能图像帧处理系统和方法


[0001]本公开总体上涉及视频、音频和相关媒体递送渠道。更具体地,例如,本公开的实施例涉及用于使用人工智能对视频或图像内容进行高效子采样和上采样的系统和方法。

技术介绍

[0002]视频流式传输服务和应用向客户端设备提供视频、音频和其他媒体内容的按需递送。在一些系统中,内容提供者向客户端订户递送电影、电视节目和其他视频内容。客户端订户可以跨各种不同的网络连接类型和带宽从不同的位置操作不同的设备。因此,视频流式传输服务在向每个客户端订户递送高质量内容方面面临挑战。高效地递送高质量媒体的一种方法使用人工智能来按比例放大(upscale)媒体渠道中的媒体内容。以这种方式,递送压缩的、按比例缩小的(downscaled)媒体流,从而允许高效使用可用带宽,然后由客户端订户使用人工智能超分辨率处理进行按比例放大,以提供用于显示的高质量图像。
[0003]鉴于前述内容,本领域中存在对于改进的媒体渠道的持续需要,该改进的媒体渠道包括硬件和软件部件,以使用人工智能(诸如人工智能超分辨率处理)高效地处理输入和输出帧。
附图说明
[0004]参考以下附图和以下详细描述可以更好地理解本公开的方面及其优点。应当理解,相同的附图标记用于标识在一个或多个附图中示出的相同元件,其中附图中的示出是出于说明本公开的实施例的目的,而不是出于限制本公开的实施例的目的。附图中的部件不一定按比例,而是将重点放在清楚地示出本公开的原理上。
[0005]图1是示出根据本公开的一个或多个实施例的常规YUV 420存储器布局的图。
[0006]图2示出了根据一个或多个实施例的下采样的亮度(luma)分量的示例提取。
[0007]图3示出了根据一个或多个实施例的用于人工智能帧处理的示例YUV存储器布局。
[0008]图4示出了根据一个或多个实施例的具有通道最后排序的YUV存储器布局。
[0009]图5示出了根据一个或多个实施例的示例内容递送系统。
[0010]图6示出了根据一个或多个实施例的示例媒体服务器。
[0011]图7示出了根据一个或多个实施例的示例媒体客户端。
具体实施方式
[0012]本文中公开了用于高效地处理媒体流的系统和方法的各种实施例。当前的多媒体处理器芯片支持用于由标准多媒体处理渠道使用(consumption)的各种像素格式(例如,具有半平面或压缩(packed)存储器布局的YUV444或YUV420)。然而,用于子采样像素格式(例如,YUV420)的支持的存储器布局未针对被人工智能(AI)算法使用进行优化。在本公开中,公开了包括新颖的像素格式和存储器布局的系统和方法,其允许输入通道在存储器中具有相同的大小和相邻(adjacent),以用于更高效的AI处理。
[0013]图1中示出了用于色度子采样YUV 420格式的常规存储器布局100。在该格式中,亮度(Y)通道以具有M
×
N像素的全分辨率存储,其中M是图像高度110,并且N是图像宽度112。色度(U和V)通道被子采样,并且两者都具有个像素(四分之一分辨率)。如图所示,色度通道114的像素相邻地存储在存储器中。
[0014]在各种实施例中,存储的子采样图像帧被输入到神经网络过程,该神经网络过程接收输入张量并产生输出张量,该输出张量可以具有不同数量的具有相同空间维度的通道。使所有输入通道具有相同空间维度的一种方式是使用内插方法(例如,双线性或双三次)对色度通道进行上采样。这将创建更多的数据,但是信息量将保持不变。在另一方法中,系统可在抗混叠滤波(例如,双线性或双三次)之后对亮度通道进行下采样。使用这种方法将丢失一些信息,诸如图像中的高频分量。
[0015]在本公开的一个实施例中,系统采用亮度通道200的四个2x下采样相位中的每个(例如,无任何滤波)且将其放入单独通道中,如图2中所示。然后,这四个通道202、204、206和208与色度通道堆叠在一起以形成6通道张量。此方法保留亮度通道中的信息,并且所有通道将具有相等空间维度,同时保留相同数据量。该方法允许格式被容易地读取并且容易地由神经网络算法使用。从神经网络处理的角度来看,通道可以在存储器中以通道第一(例如,平面)格式或以通道最后(例如,压缩)格式排序。
[0016]图3和图4示出了新颖的YUV存储器布局的实施例,其中分别示出了通道第一排序和通道最后排序。在这两种情况下,我们具有高度为个像素、宽度为个像素、和6个通道的张量作为到后续神经网络处理的输入。在各种实施例中,神经网络处理可以由诸如多媒体处理系统中的神经处理单元(NPU)的专用硬件和软件来执行。
[0017]参考图3,现在将根据一个或多个实施例描述具有通道第一排序的YUV存储器布局300。YUV存储器布局300使用3
×
N列乘M/2行存储器配置将图像帧布置在行310和列312中,其中M是图像高度并且N是图像宽度。如图所示,帧的存储器布局300包括用于亮度分量的4列(通道1

4),以及用于色度分量中的每一个的一列(通道5

6),其重复达总共3
×
N列。参考图4,示出了具有通道最后排序的YUV存储器布局400。YUV存储器布局400使用N/2列乘6
×
M/2行存储器配置将图像帧布置在行410和列412中。如图所示,每列包括4个M/2个亮度分量和一对M/2个色度分量(对于色度分量U和V)。
[0018]虽然所示实施例描述了用于YUV 420像素格式的新颖存储器布局,但是类似的方法可以应用于其他色度子采样格式(例如,YUV422或YUV440)。使用本公开的存储器布局,输入/输出张量提高了深度学习神经网络和神经网络加速器的效率。常规硬件块被配置为执行彩色像素格式转换作为标准处理渠道的一部分。具有对产生用于人工智能处理的适当像素格式的选项节省了软件原本必须花费在格式转换上的周期,同时减少了延迟。该方法适用于复杂任务,诸如具有大输入和输出帧大小的AI超分辨率。
[0019]现在将参考图5

7描述使用本公开的AI存储器布局的系统和方法的实施例。参考图5,现在将描述根据本公开的一个或多个实施例的示例内容分发网络500。内容分发网络500包括内容递送系统510,该内容递送系统510包括被配置为将下采样的媒体内容递送到一个或多个客户端设备540的一个或多个内容服务器512。
[0020]内容递送系统510还包括用于存储视频和其他媒体内容以供由内容分发网络500
分发的媒体内容存储器514,以及用于按比例缩小媒体以供递送的神经网络缩放部件。内容服务器512通过网络520可通信地耦合到客户端设备540,该网络520可以包括一个或多个有线和/或无线通信网络、边缘服务器、互联网、云服务、和/或其他网络部件。内容递送系统510被配置为将视频内容(包括音频数据、视频数据和其他媒体数据)存储在内容存储装置514中,该内容存储装置本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于流式传输视频内容的方法,包括:将接收到的视频帧转换为视频存储器格式,所述视频存储器格式包括具有相同存储器分配大小的多个通道,每个后续通道布置在相邻存储器位置中;使用按比例缩小神经网络模型来按比例缩小以所述视频存储器格式存储的视频帧,以生成按比例缩小的视频内容;以及将所述按比例缩小的视频内容传输到客户端设备。2.根据权利要求1所述的方法,还包括训练所述按比例缩小神经网络模型以生成所述按比例缩小的视频内容。3.根据权利要求1所述的方法,其中所述按比例缩小的视频内容包括标识视频内容类型的相关联的元数据,并且其中所述按比例缩小神经网络模型被训练为针对所述视频内容类型生成所述按比例缩小的视频内容。4.根据权利要求1所述的方法,其中存储所述按比例缩小的视频内容和一个或多个相关联的按比例放大模型以供由边缘服务器访问;并且其中下载所述按比例缩小的视频内容作为视频流和对应的按比例放大模型由所述边缘服务器执行。5.根据权利要求4所述的方法,其中所述边缘服务器将多个按比例放大模型下载到所述客户端设备;并且其中所述客户端设备被配置为选择按比例放大模型以供由所述客户端设备使用。6.根据权利要求1所述的方法,其中所述方法由视频流式传输系统执行。7.根据权利要求1所述的方法,还包括发起视频会议会话。8.根据权利要求1所述的方法,其中用于N
×
M帧的所述视频存储器格式包括3
×
N列和M/2行。9.根据权利要求1所述的方法,其中用于N
×
M帧的所述视频存储器格式包括N/2列和6
×
M/2行。10.一种用于流式传输视频内容的系统,包括:逻辑设备,其被配置为将接收到的视频帧转换为视频存储器格式,所述视频存储器格式包括具有相同存储器分配大小的多个通道,每个后续通道布置在相邻的存储器位置中;神经网络,其被配置为使用按比例缩小模型...

【专利技术属性】
技术研发人员:V
申请(专利权)人:辛纳普蒂克斯公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1