用于视频理解的使用基于运动的注意力的递归网络制造技术

技术编号:19397120 阅读:24 留言:0更新日期:2018-11-10 05:07
一种预测视频流的动作标签的方法包括:接收该视频流以及计算该视频流的连贯帧的光流。从该视频流的当前帧和计算出的光流生成注意力图。基于光流、先前隐藏状态和注意力图来预测当前帧的动作标签。

【技术实现步骤摘要】
【国外来华专利技术】用于视频理解的使用基于运动的注意力的递归网络相关申请的交叉引用本申请要求于2016年3月11日提交的题为“RECURRENTNETWORKSWITHMOTION-BASEDATTENTIONFORVIDEOUNDERSTANDING(用于视频理解的使用基于运动的注意力的递归网络)”的美国临时专利申请No.62/306,972的权益,其公开内容通过援引全部明确纳入于此。背景领域本公开的某些方面一般涉及机器学习,尤其涉及改进用于预测视频流的标签的系统和方法。
技术介绍
可以包括一群互连的人工神经元(例如,神经元模型)的人工神经网络是一种计算设备或者表示将由计算设备执行的方法。卷积神经网络是一种前馈人工神经网络。卷积神经网络可以包括神经元集合,其中每个神经元具有感受野并且共同地拼出一输入空间。卷积神经网络(CNN)具有众多应用。具体而言,CNN已被广泛使用于模式识别和分类领域。递归神经网络(RNN)是一类神经网络,其包括网络的节点或单元之间的循环连接。循环连接创建了可以用作使得RNN能够对动态系统进行建模的存储器的内部状态。也就是说,这些循环连接为RNN提供编码存储器的能力,并且如此,这些网络在被成功地训练的情况下适用于序列学习应用。长短期记忆(LSTM)是微电路中的一种RNN,其由使用门控功能和乘法器来将值存储在存储器中的多个单元组成。LSTM能够将值保持在存储器中达任一时间长度。如此,LSTM在学习、分类系统(例如,手写和语音识别系统)和其他应用中可以是有用的。概述在本公开的一方面,给出了一种预测视频流的动作标签的方法。该方法包括接收视频流。该方法还包括计算视频流的当前帧和下一帧的光流。该方法另外包括从视频流的当前帧和计算出的光流生成注意力图。该方法进一步包括基于光流、先前隐藏状态和注意力图来预测当前帧的动作标签。在本公开的另一方面,给出了一种用于预测视频流的动作标签的装置。该装置包括存储器以及耦合至该存储器的至少一个处理器。该一个或多个处理器被配置成接收视频流。(诸)处理器还被配置成计算视频流的当前帧和下一帧的光流。(诸)处理器被另外配置成从视频流的当前帧和计算出的光流生成注意力图。(诸)处理器被进一步配置成基于光流、先前隐藏状态和注意力图来预测当前帧的动作标签。在本公开的又一方面,给出了一种用于预测视频流的动作标签的设备。该设备包括用于接收视频流的装置。该设备还包括用于计算视频流的当前帧和下一帧的光流的装置。该设备另外包括用于从视频流的当前帧和计算出的光流生成注意力图的装置。该设备进一步包括用于基于光流、先前隐藏状态和注意力图来预测当前帧的动作标签的装置。根据本公开的再一方面,给出了一种非瞬态计算机可读介质。该非瞬态计算机可读介质其上编码有用于预测视频流的动作标签的程序代码。该程序代码由处理器执行,并且包括用于接收视频流的程序代码。该程序代码还包括用于计算视频流的当前帧和下一帧的光流的程序代码。该程序代码另外包括用于从视频流的当前帧和计算出的光流生成注意力图的程序代码。该程序代码进一步包括用于基于光流、先前隐藏状态和注意力图来预测当前帧的动作标签的程序代码。本公开的附加特征和优点将在下文描述。本领域技术人员应当领会,本公开可容易地被用作修改或设计用于实施与本公开相同的目的的其他结构的基础。本领域技术人员还应认识到,这样的等效构造并不脱离所附权利要求中所阐述的本公开的教导。被认为是本公开的特性的新颖特征在其组织和操作方法两方面连同进一步的目的和优点在结合附图来考虑以下描述时将被更好地理解。然而,要清楚理解的是,提供每一幅附图均仅用于解说和描述目的,且无意作为对本公开的限定的定义。附图简述在结合附图理解下面阐述的详细描述时,本公开的特征、本质和优点将变得更加明显,在附图中,相同附图标记始终作相应标识。图1解说了根据本公开的某些方面的使用片上系统(SOC)(包括通用处理器)来设计神经网络的示例实现。图2解说了根据本公开的各方面的系统的示例实现。图3A是解说根据本公开的各方面的神经网络的示图。图3B是解说根据本公开的各方面的示例性深度卷积网络(DCN)的框图。图4是解说根据本公开的各方面的递归神经网络(RNN)的示意图。图5A是解说根据本公开的各方面的视频帧中要为其预测标签的图像的示图。图5B是解说根据本公开的各方面的用于预测视频帧中的动作的示例性架构的示图。图6是解说根据本公开的各方面的用于预测视频帧中的动作的示例性架构的示图。图7解说了根据本公开的各方面的用于预测视频流中的标签的方法。详细描述以下结合附图阐述的详细描述旨在作为各种配置的描述,而无意表示可实践本文中所描述的概念的仅有配置。本详细描述包括具体细节以便提供对各种概念的透彻理解。然而,对于本领域技术人员将显而易见的是,没有这些具体细节也可实践这些概念。在一些实例中,以框图形式示出众所周知的结构和组件以避免湮没此类概念。基于本教导,本领域技术人员应领会,本公开的范围旨在覆盖本公开的任何方面,不论其是与本公开的任何其他方面相独立地还是组合地实现的。例如,可以使用所阐述的任何数目的方面来实现装置或实践方法。另外,本公开的范围旨在覆盖使用作为所阐述的本公开的各个方面的补充或者与之不同的其他结构、功能性、或者结构及功能性来实践的此类装置或方法。应当理解,所披露的本公开的任何方面可由权利要求的一个或多个元素来实施。措辞“示例性”在本文中用于表示“用作示例、实例、或解说”。本文中描述为“示例性”的任何方面不必被解释为优于或胜过其他方面。尽管本文描述了特定方面,但这些方面的众多变体和置换落在本公开的范围之内。虽然提到了优选方面的一些益处和优点,但本公开的范围并非旨在被限定于特定益处、用途或目标。相反,本公开的各方面旨在能宽泛地应用于不同的技术、系统配置、网络和协议,其中一些作为示例在附图以及以下对优选方面的描述中解说。详细描述和附图仅仅解说本公开而非限定本公开,本公开的范围由所附权利要求及其等效技术方案来定义。用于视频理解的使用注意力和运动的递归网络对于使用密集轨迹的传统视频编码或更新近的双流深度卷积神经网络架构两者而言,运动信息在传统上已经是自动视频理解的重要组成部分。与针对图像的卷积神经网络不同,最初提出递归网络来对有序数据进行优雅地建模。一种递归网络的流行变型是长短期记忆(LSTM)架构。该模型可以处置消失的梯度,并且由此更适于对较长序列进行建模。因此,使用LSTM可能有益于对视频的顺序时间结构进行建模并且更好地理解视听内容。常规LSTM架构在给定视频帧中的各个空间位置之间不进行区分。相反,常规LSTM架构同等地对待视频帧中的所有位置。然而,为了理解视频,考虑动作是由行动者执行的并且存在比其他区域更感兴趣或更相关的某些区域是有益的。一些常规办法已经提出了针对动作分类的注意力LSTM,其更注重与感兴趣的动作更相关的特定帧位置。这种注意力采用显著性图(例如,显著区域图)的形式,其指令LSTM网络在视频帧中在哪里聚焦。常规注意力LSTM使用帧t处的LSTM状态来生成针对帧t+1的注意力,从而有效地预测下一帧中的动作的位置。然而,常规注意力LSTM模型仅依赖于外观,而忽略有价值的运动信息。相应地,本公开的各方面涉及人工神经网络(诸如递归神经网络(RN本文档来自技高网...

【技术保护点】
1.一种预测视频流的动作标签的方法,包括:接收所述视频流;计算所述视频流的当前帧和下一帧的光流;从所述视频流的所述当前帧和计算出的光流生成注意力图;以及基于所述光流、先前隐藏状态和所述注意力图来预测所述当前帧的动作标签。

【技术特征摘要】
【国外来华专利技术】2016.03.11 US 62/306,972;2016.09.16 US 15/267,6211.一种预测视频流的动作标签的方法,包括:接收所述视频流;计算所述视频流的当前帧和下一帧的光流;从所述视频流的所述当前帧和计算出的光流生成注意力图;以及基于所述光流、先前隐藏状态和所述注意力图来预测所述当前帧的动作标签。2.如权利要求1所述的方法,其特征在于,进一步包括:从所述视频流的所述当前帧和所述注意力图计算二维(2D)或三维(3D)特征图;以及基于所述光流、所述先前隐藏状态、所述2D或3D特征图和所述注意力图来预测所述下一帧的第二动作标签。3.如权利要求2所述的方法,其特征在于,所述2D或3D特征图基于帧外观、所述光流、声谱图、或语义分割中的一者或多者。4.如权利要求1所述的方法,其特征在于,进一步包括使用递归神经网络(RNN)来预测所述动作标签。5.如权利要求4所述的方法,其特征在于,所述RNN包括长短期记忆(LSTM)网络。6.一种用于预测视频流的动作标签的装置,包括:存储器;以及耦合至所述存储器的至少一个处理器,所述至少一个处理器被配置成:接收所述视频流;计算所述视频流的当前帧和下一帧的光流;从所述视频流的所述当前帧和计算出的光流生成注意力图;以及基于所述光流、先前隐藏状态和所述注意力图来预测所述当前帧的动作标签。7.如权利要求6所述的装置,其特征在于,所述至少一个处理器被进一步配置成:从所述视频流的所述当前帧和所述注意力图计算二维(2D)或三维(3D)特征图;以及基于所述光流、所述先前隐藏状态、所述2D或3D特征图和所述注意力图来预测所述下一帧的第二动作标签。8.如权利要求7所述的装置,其特征在于,所述2D或3D特征图基于帧外观、所述光流、声谱图、或语义分割中的一者或多者。9.如权利要求6所述的装置,其特征在于,所述至少一个处理器被进一步被配置成使用递归神经网络(RNN)来预测所述动作标签。10.如权利要求9所述的装置,其特征在于,所述RNN包括长短期记忆(LSTM)网络。11.一...

【专利技术属性】
技术研发人员:Z·李E·加维斯M·贾殷C·G·M·斯诺克
申请(专利权)人:高通股份有限公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1