使用自注意力的视频处理中的帧对齐制造技术

技术编号:39327566 阅读:7 留言:0更新日期:2023-11-12 16:05
一种处理器实现的用于处理视频的方法,包括:接收视频作为人工神经网络

【技术实现步骤摘要】
【国外来华专利技术】使用自注意力的视频处理中的帧对齐
[0001]相关申请的交叉引用
[0002]本申请要求于2022年3月16日提交的题为“EFFICIENT SELF

ATTENTION FOR VIDEO PROCESSING(用于视频处理的高效自注意力)”的美国专利申请No.17/696,797的优先权,其要求于2021年3月17日提交的题为“EFFICIENT SELF

ATTENTION FOR VIDEO PROCESSING(用于视频处理的高效自注意力)”的美国临时专利申请No.63/162,478的权益,这些申请的公开内容通过援引整体明确纳入于此。
[0003]背景
[0004]领域
[0005]本公开的各方面一般涉及神经网络,并且更具体地涉及使用自注意力的视频处理。

技术介绍

[0006]人工神经网络可包括诸群互连的人工神经元(例如,神经元模型)。人工神经网络可以是计算设备,或者被表示为要由计算设备执行的方法。
[0007]神经网络可以被用来解决复杂问题;然而,由于网络大小和可被执行以产生解决方案的运算量可能是浩繁的,因此网络完成任务的时间可能很长。此外,由于这些任务可在移动设备(其可能具有有限的计算能力)上执行,因此深度神经网络的计算成本可能会有问题。
[0008]卷积神经网络是一种前馈人工神经网络。卷积神经网络可包括神经元集合,其中每个神经元具有感受野并且共同地拼出一输入空间。卷积神经网络(CNN)(诸如深度卷积神经网络(DCN))具有众多应用。具体而言,这些神经网络架构被用于各种技术,诸如图像识别、模式识别、语音识别、自动驾驶、视频处理和其他分类任务。
[0009]视频处理涉及从相邻帧中获取信息。从相邻帧获得的时间信息可能有益于视频帧重构质量,但这是以显著的计算开销为代价的。在资源受限的设备(诸如智能电话和其他移动设备)中,经由增加的计算开销带来的挑战进一步加剧。
[0010]概述
[0011]本公开在独立权利要求中分别阐述。本公开的一些方面在从属权利要求中描述。
[0012]在本公开的一个方面,提出了一种处理器实现的用于处理视频的方法。该处理器实现的方法包括接收视频作为人工神经网络(ANN)处的输入,该视频包括帧序列。该处理器实现的方法还包括提取视频的当前帧和视频的先前帧中的每一者的特征集合。该特征集合包括要与当前帧的参考特征集合对齐的针对当前帧的像素集合的支持特征集合。该处理器实现的方法附加地包括计算先前帧的支持特征集合中针对像素集合中的每个像素的支持特征与当前帧的对应参考特征之间的相似度。该处理器实现的方法进一步包括基于相似度来生成注意力图。该方法还包括基于注意力图来生成包括当前帧的重构的输出。
[0013]本公开的另一方面涉及一种用于处理视频的设备。该设备包括用于接收视频作为人工神经网络(ANN)处的输入的装置。该视频包括帧序列。该设备还包括用于提取视频的当
前帧和视频的先前帧中的每一者的特征集合的装置。该特征集合包括要与当前帧的参考特征集合对齐的针对当前帧的像素集合的支持特征集合。该设备附加地包括用于计算先前帧的支持特征集合中针对像素集合中的每个像素的支持特征与当前帧的对应参考特征之间的相似度的装置。该设备进一步包括用于基于相似度来生成注意力图的装置。该设备还包括用于基于注意力图来生成包括当前帧的重构的输出的装置。
[0014]在本公开的另一方面,公开了一种其上记录有用于处理视频的非瞬态程序代码的非瞬态计算机可读介质。该程序代码由处理器执行并且包括用于接收视频作为人工神经网络(ANN)处的输入的程序代码。该视频包括帧序列。该程序代码还包括用于提取视频的当前帧和视频的先前帧中的每一者的特征集合的程序代码。该特征集合包括要与当前帧的参考特征集合对齐的针对当前帧的像素集合的支持特征集合。该程序代码附加地包括用于计算先前帧的支持特征集合中针对像素集合中的每个像素的支持特征与当前帧的对应参考特征之间的相似度的程序代码。该程序代码进一步包括用于基于相似度来生成注意力图的程序代码。该程序代码还包括用于基于注意力图来生成包括当前帧的重构的输出的程序代码。
[0015]本公开的另一方面涉及一种用于处理视频的装置。该装置包括存储器以及耦合到该存储器的一个或多个处理器。(诸)处理器被配置成接收视频作为人工神经网络(ANN)处的输入。该视频包括帧序列。(诸)处理器还被配置成提取视频的当前帧和视频的先前帧中的每一者的特征集合。该特征集合包括要与当前帧的参考特征集合对齐的针对当前帧的像素集合的支持特征集合。(诸)处理器附加地被配置成计算先前帧的支持特征集合中针对像素集合中的每个像素的支持特征与当前帧的对应参考特征之间的相似度。(诸)处理器被进一步配置成基于相似度来生成注意力图。此外,(诸)处理器被配置成基于注意力图来生成包括当前帧的重构的输出。
[0016]本公开的附加特征和优点将在下文描述。本领域技术人员应当领会,本公开可容易地被用作修改或设计用于实施与本公开相同的目的的其他结构的基础。本领域技术人员还应认识到,这样的等效构造并不脱离所附权利要求中所阐述的本公开的教导。被认为是本公开的特性的新颖特征在其组织和操作方法两方面连同进一步的目的和优点在结合附图来考虑以下描述时将被更好地理解。然而,要清楚理解的是,提供每一幅附图均仅用于解说和描述目的,且无意作为对本公开的限定的定义。
[0017]附图简述
[0018]在结合附图理解下面阐述的详细描述时,本公开的特征、本质和优点将变得更加明显,在附图中,相同附图标记始终作相应标识。
[0019]图1解说了根据本公开的某些方面的包括中央处理单元(CPU)的片上系统(SoC)的示例实现。
[0020]图2A、2B和2C是解说根据本公开的各方面的神经网络的示图。
[0021]图2D是解说根据本公开的各方面的示例性深度卷积网络(DCN)的示图。
[0022]图3是解说根据本公开的各方面的示例性深度卷积网络(DCN)的框图。
[0023]图4是解说可使人工智能(AI)功能模块化的示例性软件架构的框图。
[0024]图5是解说根据本公开的各方面的用于处理的视频的示例帧的框图。
[0025]图6是解说根据本公开的各方面的使用自注意力对各帧的示例对齐的框图。
[0026]图7A和7B解说了根据本公开的各方面的用于使用自注意力来对齐帧的示例架构。
[0027]图8是解说根据本公开的各方面的使用查询选择对各帧的示例对齐的示图。
[0028]图9是解说根据本公开的各方面的用于处理视频的方法的流程图。
[0029]详细描述
[0030]以下结合附图阐述的详细描述旨在作为各种配置的描述,而无意表示可实践所描述的概念的仅有配置。本详细描述包括具体细节以便提供对各种概念的透彻理解。然而,对于本领域技术人员将显而易见的是,没有这些具体细节也可实践这些概念。在一些实例中,以框图形式示出众所周知的结本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种处理器实现的用于处理视频的方法,包括:接收所述视频作为人工神经网络(ANN)处的输入,所述视频包括帧序列;提取所述视频的当前帧和所述视频的先前帧中的每一者的特征集合,所述特征集合包括要与所述当前帧的参考特征集合对齐的针对所述当前帧的像素集合的支持特征集合;计算所述先前帧的所述支持特征集合中针对所述像素集合中的每个像素的支持特征与所述当前帧的对应参考特征之间的相似度;基于所述相似度来生成注意力图;以及基于所述注意力图来生成包括所述当前帧的重构的输出。2.如权利要求1所述的处理器实现的方法,进一步包括:显示所述输出。3.如权利要求1所述的处理器实现的方法,其中经重构的当前帧包括所述当前帧的一个或多个像素的经调整对齐。4.如权利要求1所述的处理器实现的方法,进一步包括:基于残差来应用选通函数以限制计算与所述当前帧的所述像素集合的子集的相似度,所述残差包括所述当前帧与所述先前帧之间的差异。5.如权利要求1所述的处理器实现的方法,进一步包括:应用稀疏度目标来限制所述当前帧的所述像素集合中针对其计算所述相似度的像素数目。6.如权利要求1所述的处理器实现的方法,进一步包括:对经重构的当前帧进行上采样。7.一种用于处理视频的装置,包括:存储器;以及耦合至所述存储器的至少一个处理器,所述至少一个处理器被配置成:接收所述视频作为人工神经网络(ANN)处的输入,所述视频包括帧序列;提取所述视频的当前帧和所述视频的先前帧中的每一者的特征集合,所述特征集合包括要与所述当前帧的参考特征集合对齐的针对所述当前帧的像素集合的支持特征集合;计算所述先前帧的所述支持特征集合中针对所述像素集合中的每个像素的支持特征与所述当前帧的对应参考特征之间的相似度;基于所述相似度来生成注意力图;以及基于所述注意力图来生成包括所述当前帧的重构的输出。8.如权利要求7所述的装置,其中所述至少一个处理器被进一步配置成:显示所述输出。9.如权利要求7所述的装置,其中经重构的当前帧包括所述当前帧的一个或多个像素的经调整对齐。10.如权利要求7所述的装置,其中所述至少一个处理器被进一步配置成:基于残差来应用选通函数以限制计算与所述当前帧的所述像素集合的子集的相似度,所述残差包括所述当前帧与所述先前帧之间的差异。11.如权利要求7所述的装置,其中所述至少一个处理器被进一步配置成:应用稀疏度目标来限制所述当前帧的所述像素集合中针对其计算所述相似度的像素数目。12.如权利要求7所述的装置,其中所述至少一个处理器被进一步配置成:对经重构的当前帧进行上采样。
13.一种其上记录有程序代码的非瞬态计算机可读介质,所述程序代码由处理器执行并且包括:用于接收所述视...

【专利技术属性】
技术研发人员:D
申请(专利权)人:高通股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1