用于高效视频处理的跳跃卷积制造技术

技术编号:38221515 阅读:19 留言:0更新日期:2023-07-25 17:53
一种用于经由人工神经网络进行视频处理的方法包括在该人工神经网络处接收视频流作为输入。基于该视频流的当前帧的第一特征与该视频流的先前帧的第二特征之间的差异来计算残差。基于该残差来处理该视频流的当前帧的一个或多个部分。附加地,基于该残差来跳过对视频的当前帧的一个或多个部分的处理。频的当前帧的一个或多个部分的处理。频的当前帧的一个或多个部分的处理。

【技术实现步骤摘要】
【国外来华专利技术】用于高效视频处理的跳跃卷积
[0001]相关申请的交叉引用
[0002]本申请要求于2020年11月16日提交的题为“Skip convolutions for efficient video processing(用于高效视频处理的跳跃卷积)”的美国临时专利申请No.63/114,348的权益,该申请的公开内容通过引用全部明确纳入于此。
[0003]公开领域
[0004]本公开的各方面一般涉及经由人工神经网络的能量高效视频处理。

技术介绍

[0005]人工神经网络可包括诸群互连的人工神经元(例如,神经元模型)。人工神经网络可以是计算设备,或者被表示为要由计算设备执行的方法。
[0006]神经网络由消耗张量和产生张量的操作数组成。神经网络可以被用来解决复杂问题;然而,由于网络大小和可被执行以产生解的计算量可能是浩繁的,因此网络完成任务的时间可能很长。此外,由于这些任务可在移动设备(其可能具有有限的计算能力)上执行,因此深度神经网络的计算成本可能会有问题。
[0007]卷积神经网络是一种前馈人工神经网络。卷积神经网络可包括神经元集合,其中每个神经元具有感受野并且共同地拼出一输入空间。卷积神经网络(CNN)(诸如深度卷积神经网络(DCN))具有众多应用。具体而言,这些神经网络架构被用于各种技术,诸如图像识别、模式识别、语音识别、自动驾驶和其他分类任务。
[0008]神经网络在基于图像的视频或视频流处理方面也有众多应用,诸如人体姿态估计、对象检测、语义表义、以及视频压缩和去噪。遗憾的是,此类视频处理是计算密集型的,这会导致大量时间和能量消耗。
[0009]概述
[0010]本公开在独立权利要求中分别阐述。本专利技术的一些方面在从属权利要求中描述。
[0011]在本公开的一方面,提供了一种用人工神经网络(ANN)进行视频处理的方法。该方法包括在人工神经网络处接收视频流作为输入。该方法还包括基于该视频流的当前帧的第一特征与该视频流的先前帧的第二特征之间的差异来计算残差。附加地,该方法包括基于该残差来处理该视频流的当前帧的一个或多个部分。
[0012]在本公开的另一方面,提供了一种用人工神经网络(ANN)进行视频处理的装置。该装置包括存储器以及耦合到该存储器的一个或多个处理器。该处理器被配置成在人工神经网络处接收视频流作为输入。该处理器还被配置成基于该视频流的当前帧的第一特征与该视频流的先前帧的第二特征之间的差异来计算残差。另外,该处理器被配置成基于该残差来处理该视频流的当前帧的一个或多个部分。
[0013]在本公开的一方面,提供了一种用人工神经网络(ANN)进行视频处理的设备。该设备包括用于在人工神经网络处接收视频流作为输入的装置。该设备还包括用于基于该视频流的当前帧的第一特征与该视频流的先前帧的第二特征之间的差异来计算残差的装置。附加地,该设备包括用于基于该残差来处理该视频流的当前帧的一个或多个部分的装置。
[0014]在本公开的进一步方面,提供了一种非瞬态计算机可读介质。该计算机可读介质上编码有用人工神经网络(ANN)进行视频处理的程序代码。该程序代码由处理器执行并且包括用于在人工神经网络处接收视频流作为输入的代码。该程序代码还包括用于基于该视频流的当前帧的第一特征与该视频流的先前帧的第二特征之间的差异来计算残差的代码。此外,该程序代码包括用于基于该残差来处理该视频流的当前帧的一个或多个部分的代码。
[0015]本公开的附加特征和优点将在下文描述。本领域技术人员应当领会,本公开可容易地被用作修改或设计用于实施与本公开相同的目的的其他结构的基础。本领域技术人员还应认识到,这样的等效构造并不脱离所附权利要求中所阐述的本公开的教导。被认为是本公开的特性的新颖特征在其组织和操作方法两方面连同进一步的目的和优点在结合附图来考虑以下描述时将被更好地理解。然而,要清楚理解的是,提供每一幅附图均仅用于解说和描述目的,且无意作为对本公开的限定的定义。
[0016]附图简述
[0017]在结合附图理解下面阐述的详细描述时,本公开的特征、本质和优点将变得更加明显,在附图中,相同附图标记始终作相应标识。
[0018]图1解说了根据本公开的某些方面的使用片上系统(SoC)(包括通用处理器)的神经网络的示例实现。
[0019]图2A、2B和2C是解说根据本公开的各方面的神经网络的示图。
[0020]图2D是解说根据本公开的各方面的示例性深度卷积网络(DCN)的示图。
[0021]图3是解说根据本公开的各方面的示例性深度卷积网络(DCN)的框图。
[0022]图4是解说可使人工智能(AI)功能模块化的示例性软件架构的框图。
[0023]图5是解说根据本公开的各方面的示例残差确定的示图。
[0024]图6是解说根据本公开的各方面的示例跳跃卷积层的框图。
[0025]图7是解说根据本公开的各方面的具有经学习门的跳跃卷积的示例逐块实现的框图。
[0026]图8是解说根据本公开的各方面的图形处理单元上的跳跃卷积的示例实现的框图。
[0027]图9是解说根据本公开的各方面的用人工神经网络处理视频的方法的流程图。
[0028]详细描述
[0029]以下结合附图阐述的详细描述旨在作为各种配置的描述,而无意表示可实践所描述的概念的仅有配置。本详细描述包括具体细节以便提供对各种概念的透彻理解。然而,对于本领域技术人员将显而易见的是,没有这些具体细节也可实践这些概念。在一些实例中,以框图形式示出众所周知的结构和组件以避免湮没此类概念。
[0030]基于本教导,本领域技术人员应领会,本公开的范围旨在覆盖本公开的任何方面,不论其是与本公开的任何其他方面相独立地还是组合地实现的。例如,可使用所阐述的任何数目的方面来实现装置或实践方法。另外,本公开的范围旨在覆盖使用作为所阐述的本公开的各个方面的补充或者与之不同的其他结构、功能性、或者结构及功能性来实践的此类装置或方法。应当理解,所披露的本公开的任何方面可由权利要求的一个或多个元素来实施。
[0031]措辞“示例性”用于意指“用作示例、实例、或解说”。描述为“示例性”的任何方面不必被解释为优于或胜过其他方面。
[0032]尽管描述了特定方面,但这些方面的众多变体和置换落在本公开的范围之内。虽然提到了优选方面的一些益处和优点,但本公开的范围并非旨在被限定于特定益处、用途或目标。相反,本公开的各方面旨在能宽泛地应用于不同的技术、系统配置、网络和协议,其中一些作为示例在附图以及以下对优选方面的描述中解说。详细描述和附图仅仅解说本公开而非限定本公开,本公开的范围由所附权利要求及其等效技术方案来定义。
[0033]神经网络在基于图像的视频或视频流处理方面具有众多应用,诸如人体姿态估计、对象检测、语义表义、以及视频压缩和去噪。遗憾的是,此类视频处理是计算密集型的,这会导致大量时间和能量消耗。
[0034]视频从一帧到下一帧可能有很大的相似性本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用人工神经网络(ANN)进行视频处理的方法,包括:在所述人工神经网络处接收视频流作为输入;基于所述视频流的当前帧的第一特征与所述视频流的先前帧的第二特征之间的差异来计算残差;以及基于所述残差来处理所述视频流的所述当前帧的一个或多个部分。2.如权利要求1所述的方法,其中所述当前帧的所述一个或多个部分仅包括所述当前帧的显著区域。3.如权利要求2所述的方法,进一步包括仅向所述当前帧的所述显著区域应用卷积内核。4.如权利要求2所述的方法,进一步包括基于所述残差是否大于预定阈值来确定所述显著区域。5.如权利要求1所述的方法,进一步包括基于所述残差来抑制处理所述视频流的所述当前帧的至少一个部分。6.如权利要求5所述的方法,其中与所述当前帧的所述至少一个部分相对应的第一输出被设置成等于与所述先前帧的至少一个部分相对应的第二输出。7.如权利要求1所述的方法,进一步包括:将所述残差与预定义阈值进行比较;以及基于所述比较来向对应的第一特征应用掩蔽。8.如权利要求1所述的方法,进一步包括学习门控函数以基于所述残差来向所述当前帧的一个或多个部分应用掩蔽。9.如权利要求8所述的方法,进一步包括基于所述门控函数来生成显著性图。10.如权利要求1所述的方法,进一步包括基于每帧观察到的信息量来自适应地调整在处理所述视频流时执行的计算量。11.一种用人工神经网络(ANN)进行视频处理的装置,包括:存储器;以及耦合到所述存储器的至少一个处理器,所述至少一个处理器被配置成:在所述人工神经网络处接收视频流作为输入;基于所述视频流的当前帧的第一特征与所述视频流的先前帧的第二特征之间的差异来计算残差;以及基于所述残差来处理所述视频流的所述当前帧的一个或多个部分。12.如权利要求11所述的装置,其中所述当前帧的所述一个或多个部分仅包括所述当前帧的显著区域。13.如权利要求12所述的装置,其中所述至少一个处理器被进一步配置成仅向所述当前帧的所述显著区域应用卷积内核。14.如权利要求12所述的装置,其中所述至少一个处理器被进一步配置成基于所述残差是否大于预定阈值来确定所述显著区域。15.如权利要求11所述的装置,其中所述至少一个处理器被进一步配置成基于所述残差来抑制处理所述视频流的所述当前帧的至少一个部分。16.如权利要求15所述的装置,其中与所述当前帧的所述至少一个部分相对应的第一
输出被设置成等于与所述先前帧的至少一个部分相对应的第二输出。17...

【专利技术属性】
技术研发人员:A
申请(专利权)人:高通股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1