用于视频理解的使用基于运动的注意力的递归网络制造技术

技术编号：19397120 阅读：24 留言：0更新日期：2018-11-10 05:07

一种预测视频流的动作标签的方法包括：接收该视频流以及计算该视频流的连贯帧的光流。从该视频流的当前帧和计算出的光流生成注意力图。基于光流、先前隐藏状态和注意力图来预测当前帧的动作标签。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】用于视频理解的使用基于运动的注意力的递归网络相关申请的交叉引用本申请要求于2016年3月11日提交的题为“RECURRENTNETWORKSWITHMOTION-BASEDATTENTIONFORVIDEOUNDERSTANDING(用于视频理解的使用基于运动的注意力的递归网络)”的美国临时专利申请No.62/306,972的权益，其公开内容通过援引全部明确纳入于此。背景领域本公开的某些方面一般涉及机器学习，尤其涉及改进用于预测视频流的标签的系统和方法。
技术介绍
可以包括一群互连的人工神经元(例如，神经元模型)的人工神经网络是一种计算设备或者表示将由计算设备执行的方法。卷积神经网络是一种前馈人工神经网络。卷积神经网络可以包括神经元集合，其中每个神经元具有感受野并且共同地拼出一输入空间。卷积神经网络(CNN)具有众多应用。具体而言，CNN已被广泛使用于模式识别和分类领域。递归神经网络(RNN)是一类神经网络，其包括网络的节点或单元之间的循环连接。循环连接创建了可以用作使得RNN能够对动态系统进行建模的存储器的内部状态。也就是说，这些循环连接为RNN提供编码存储器的能力，并且如此，这些网络在被成功地训练的情况下适用于序列学习应用。长短期记忆(LSTM)是微电路中的一种RNN，其由使用门控功能和乘法器来将值存储在存储器中的多个单元组成。LSTM能够将值保持在存储器中达任一时间长度。如此，LSTM在学习、分类系统(例如，手写和语音识别系统)和其他应用中可以是有用的。概述在本公开的一方面，给出了一种预测视频流的动作标签的方法。该方法包括接收视频流。该方法还包括计算视频流...

【技术保护点】
1.一种预测视频流的动作标签的方法，包括：接收所述视频流；计算所述视频流的当前帧和下一帧的光流；从所述视频流的所述当前帧和计算出的光流生成注意力图；以及基于所述光流、先前隐藏状态和所述注意力图来预测所述当前帧的动作标签。

【技术特征摘要】
【国外来华专利技术】2016.03.11 US 62/306,972;2016.09.16 US 15/267,6211.一种预测视频流的动作标签的方法，包括：接收所述视频流；计算所述视频流的当前帧和下一帧的光流；从所述视频流的所述当前帧和计算出的光流生成注意力图；以及基于所述光流、先前隐藏状态和所述注意力图来预测所述当前帧的动作标签。2.如权利要求1所述的方法，其特征在于，进一步包括：从所述视频流的所述当前帧和所述注意力图计算二维(2D)或三维(3D)特征图；以及基于所述光流、所述先前隐藏状态、所述2D或3D特征图和所述注意力图来预测所述下一帧的第二动作标签。3.如权利要求2所述的方法，其特征在于，所述2D或3D特征图基于帧外观、所述光流、声谱图、或语义分割中的一者或多者。4.如权利要求1所述的方法，其特征在于，进一步包括使用递归神经网络(RNN)来预测所述动作标签。5.如权利要求4所述的方法，其特征在于，所述RNN包括长短期记忆(LSTM)网络。6.一种用于预测视频流的动作标签的装置，包括：存储器；以及耦合至所述存储器的至少一个处理器，所述至少一个处理器被配置成：接收所述视频流；计算所述视频流的当前帧和下一帧的光流；从所述视频流的所述当前帧和计算出的光流生成注意力图；以及基于所述光流、先前隐藏状态和所述注意力图来预测所述当前帧的动作标签。7.如权利要求6所述的装置，其特征在于，所述至少一个处理器被进一步配置成：从所述视频流的所述当前帧和所述注意力图计算二维(2D)或三维(3D)特征图；以及基于所述光流、所述先前隐藏状态、所述2D或3D特征图和所述注意力图来预测所述下一帧的第二动作标签。8.如权利要求7所述的装置，其特征在于，所述2D或3D特征图基于帧外观、所述光流、声谱图、或语义分割中的一者或多者。9.如权利要求6所述的装置，其特征在于，所述至少一个处理器被进一步被配置成使用递归神经网络(RNN)来预测所述动作标签。10.如权利要求9所述的装置，其特征在于，所述RNN包括长短期记忆(LSTM)网络。11.一...

【专利技术属性】
技术研发人员：Z·李，E·加维斯，M·贾殷，C·G·M·斯诺克，
申请(专利权)人：高通股份有限公司，
类型：发明
国别省市：美国,US

全部详细技术资料下载我是这个专利的主人