通过稀疏时间池化网络的弱监督动作定位制造技术

技术编号:23412256 阅读:30 留言:0更新日期:2020-02-22 18:36
提供了用于弱监督动作定位模型的系统和方法。根据本公开的示例方面的示例模型可以使用诸如卷积神经网络的机器学习模型来对未修剪的视频中的动作进行定位和/或分类。示例模型可以在给定视频级类别标签的情况下预测人类动作的时间间隔,而不需要动作的时间定位信息。示例模型可以识别动作并通过视频帧的自适应时间池化标识与动作相关联的关键帧的稀疏集合,其中模型的损失函数由分类错误和帧选择的稀疏性组成。在用稀疏关键帧注意进行动作识别之后,可以使用时间类别激活映射提取动作的时间建议,并可以估计与目标动作相对应的最终时间间隔。

Weak supervision action location through sparse time pooling network

【技术实现步骤摘要】
【国外来华专利技术】通过稀疏时间池化网络的弱监督动作定位优先权要求本申请基于并要求于2017年11月14日提交的美国临时申请62/586,078的权益,其通过引用并入本文。
本公开总体上涉及视频动作检测和定位。更具体地,本公开涉及未修剪的视频的弱监督时间动作定位模型。
技术介绍
视频中的动作识别是高级别视频理解的关键问题之一,包括事件检测、视频摘要和视频中的视觉问题解答。在过去的十年中,许多研究人员一直在广泛地研究该问题。动作识别中的主要挑战是缺乏合适的视频表示方法。与卷积神经网络(CNN)在与图像有关的许多视觉识别问题中几乎立竿见影的成功相反,由于存在许多问题,包括数据固有的复杂结构、大文件大小以及缺乏对时间信息建模的知识,将深度神经网络应用于视频数据并不是一件容易的事。因此,基于来自深度学习的表示的技术并没有比依靠手工制作的视觉特征的方法更好。结果,许多现有算法试图通过结合手工制作和学习/训练的特征来实现最先进的性能。另一个问题是,大多数现有技术都将修剪的视频用于视频级文本分类,或者需要对动作间隔进行注释以进行时间定位。由于未修剪的视频通常包含大量与视频级类别标签直接相关的不相关帧,因此,视频表示学习和动作分类可能无法从原始视频中提取必要的信息。另一方面,对大规模数据集进行动作定位的注释非常昂贵且耗时,因此,更需要开发一种在运行时无需此类时间注释的有竞争力的算法。
技术实现思路
本公开的实施例的方面和优点将在以下描述中部分地阐述,或者可以从描述中获悉,或者可以通过实施例的实践来获知。>本公开的一个示例方面涉及一种用于在视频中在时间上定位目标动作的计算机实现的方法。该计算机实现的方法可以包括将包含RGB串流的视频输入到稀疏时间池化网络中。稀疏时间池化网络可以包括第一弱监督时间动作定位模型和第二弱监督时间动作定位模型。该计算机实现的方法还可以包括通过稀疏时间池化网络确定视频的光流串流。该计算机实现的方法还可以包括通过第一弱监督时间动作定位模型分析RGB串流以确定包括时域中的一维特定于类别的激活图的RGB加权的时间类别激活图。该计算机实现的方法还可以包括通过第二弱监督时间动作定位模型分析光流串流,以确定包括时域中的一维特定于类别的激活图的流加权的时间类别激活图。该计算机实现的方法还可以包括至少部分地基于RGB加权的时间类别激活图或加权的时间类别激活图通过稀疏时间池化网络确定目标动作在视频中的时间位置。本公开的另一个示例方面涉及一种训练弱监督时间动作定位模型的计算机实现的方法。该计算机实现的方法可以包括将未修剪的视频输入到弱监督时间动作定位模型中。该计算机实现的方法还可以包括通过弱监督时间动作定位模型分析未修剪的视频以确定动作分类的预测得分。该计算机实现的方法还可以包括至少部分地基于预测得分确定损失函数。损失函数可以包括稀疏损失和分类损失。该计算机实现的方法还可以包括至少部分地基于损失函数训练弱监督时间动作定位模型。本公开的另一方面涉及计算系统。计算系统可以包括至少一个处理器、稀疏时间池化网络,和存储指令的至少一个有形的非暂时性计算机可读介质,当所述指令被至少一个处理器执行时,使得至少一个处理器执行操作。稀疏时间池化网络可以包括第一弱监督时间动作定位模型和第二弱监督时间动作定位模型。第一弱监督时间动作定位模型可以被训练为接收包括RGB串流的视频,且响应于接收到RGB串流,输出RGB加权的时间类别激活图,其包括时域中的一维特定于类别的激活图。第二弱监督时间动作定位模型可以训练为接收视频的光流串流,且响应于接收到光流串流,输出流加权的时间类别激活图,其包括时域中的一维特定于类别的激活图。操作可以包括获取视频。操作还可以包括至少部分地基于RGB串流生成光流串流。操作还可以包括将RGB串流输入到第一弱监督时间动作定位模型中。操作还可以包括,作为第一弱监督时间动作定位模型的输出,接收RGB加权的时间类别激活图。操作可以包括将光流串流输入到第二弱监督时间动作定位模型中。操作还可以包括,作为第二弱监督时间动作定位模型的输出,接收流加权的时间类别激活图。操作可以包括至少部分地基于RGB加权的时间类别激活图或流加权的时间类别激活图确定目标动作在视频中的时间位置。本公开的附加方面涉及各种模型、计算机实现的方法、计算装置、系统、设备、非暂时性计算机可读介质、用户界面和电子装置。参考以下描述和所附权利要求,将更好地理解本公开的各种实施例的这些和其他特征、方面和优点。并入本说明书中并构成其的一部分的附图示出了本公开的示例实施例,并且与说明书一起用于解释相关原理。附图说明在说明书中阐述了针对本领域普通技术人员的实施例的详细讨论,其中参考了附图,其中:图1描绘了根据本公开的示例方面的示例稀疏时间池化网络的框图;图2描绘了根据本公开的示例方面的示例弱监督时间动作定位模型的框图;图3描绘了使用根据本公开的示例方面的一个或多个示例模型的示例地面实况动作及相应的注意权重和时间类别激活图输出的图示;图4A描绘了使用根据本公开的示例方面的一个或多个示例模型的示例地面实况动作实例以及预测和相应的加权的时间类别激活图;图4B描绘了使用根据本公开的示例方面的一个或多个示例模型的包含来自不同类别的地面实况动作实例的示例视频以及预测和相应的加权的时间类别激活图;图4C描绘了使用根据本公开的示例方面的一个或多个示例模型的示例地面实况动作实例以及预测和相应的加权的时间类别激活图;图5描绘了示出根据本公开的示例方面的一个或多个示例模型对于不同架构选择的性能的图表;图6描绘了示出根据本公开的示例方面的一个或多个示例模型对于不同特征选择的性能的图表;图7A描绘了根据本公开的示例方面的执行动作分类和/或定位的示例计算系统的框图;图7B描绘了根据本公开的示例方面的执行动作分类和/或定位的示例计算装置的框图;图7C描绘了根据本公开的示例方面的执行动作分类和/或定位的示例计算装置的框图;图8描绘了根据本公开的示例方面的示例动作分类器/定位模型的框图;图9描绘了根据本公开的示例方面的执行动作定位和/或分类的示例方法的流程图;图10描绘了根据本公开的示例方面的在视频中在时间上定位目标动作的示例方法的流程图;以及图11描绘了根据本公开的示例方面的训练弱监督时间动作定位模型的示例方法的流程图。在多个附图中重复的附图标记旨在标识各种实现方式中的相同特征。具体实施方式I.概述通常,本公开的示例方面涉及用于使用深度神经网络在视频中定位动作的模型、计算机实现的方法、计算装置、非暂时性计算机可读介质、系统和方法。本公开的示例模型、系统、方法和装置可以允许在未修剪的视频中在时间上定位动作,而无需利用训练期间的动作的任何时间信息。可以基于各个视频的视频级文本标签来学习/训练本公开的示例模型、系统、方法和装置。为此,网络模型(例如,深度神经网络)可以选择可用于动作识别的帧子集,其中损失函数可以度量每个视本文档来自技高网...

【技术保护点】
1.一种计算机实现的方法,用于在视频中在时间上定位目标动作,包括:/n将视频输入到包括一个或多个弱监督时间动作定位模型的机器学习模型中;/n通过所述一个或多个弱监督时间动作定位模型分析所述视频以确定一个或多个加权的时间类别激活图;每个时间类别激活图包括时域中的一维特定于类别的激活图;以及/n至少部分地基于所述一个或多个加权的时间类别激活图确定目标动作在所述视频中的时间位置。/n

【技术特征摘要】
【国外来华专利技术】20171114 US 62/586,0781.一种计算机实现的方法,用于在视频中在时间上定位目标动作,包括:
将视频输入到包括一个或多个弱监督时间动作定位模型的机器学习模型中;
通过所述一个或多个弱监督时间动作定位模型分析所述视频以确定一个或多个加权的时间类别激活图;每个时间类别激活图包括时域中的一维特定于类别的激活图;以及
至少部分地基于所述一个或多个加权的时间类别激活图确定目标动作在所述视频中的时间位置。


2.如权利要求1所述的计算机实现的方法,其中所述机器学习模型包括稀疏时间池化网络,所述稀疏时间池化网络包括第一弱监督时间动作定位模型和第二弱监督时间动作定位模型。


3.如权利要求1或2所述的计算机实现的方法,其中所述视频包括RGB串流。


4.如权利要求2所述计算机实现的方法,还包括:
至少部分地基于所述视频生成光流串流;以及
其中所述视频输入到包括一个或多个弱监督时间动作定位模型的所述机器学习模型中包括:
将所述视频输入到所述第一弱监督时间动作定位模型中,以及;
将所述光流串流输入到所述第二弱监督时间动作定位模型中。


5.如权利要求4所述的计算机实现的方法,其中通过所述一个或多个弱监督时间动作定位模型来分析所述视频以确定所述一个或多个加权的时间类别激活图包括;
通过所述第一弱监督时间动作定位模型分析所述视频以确定第一加权的时间类别激活图,所述第一加权的时间类别激活图包括所述时域中的第一一维特定于类别的激活图;以及
通过所述第二弱监督时间动作定位模型分析所述光流串流以确定第二加权的时间类别激活图,所述第二加权的时间类别激活图包括所述时域中的第二一维特定于类别的激活图。


6.如权利要求5所述的计算机实现的方法,其中至少部分地基于所述一个或多个加权的时间类别激活图确定所述目标动作在所述视频中的所述时间位置包括:
至少部分地基于所述第一加权的时间类别激活图和所述第二加权的时间类别激活图确定所述目标动作在所述视频中的所述时间位置。


7.如权利要求6所述的计算机实现的方法,其中至少部分地基于所述一个或多个加权的时间类别激活图确定所述目标动作在所述视频中的所述时间位置包括:
为所述视频和所述光流串流中的每一个生成一个或多个特定于类别的时间建议,每个特定于类别的时间建议包括从所述视频或所述光流串流提取的一维连接的分量。


8.如权利要求7所述的计算机实现的方法,其中为所述视频和所述光流串流中的每一个生成所述一个或多个特定于类别的时间建议包括:对所述第一加权的时间类别激活图进行阈值化以将所述视频分割成一个或多个特定于类别的建议的第一集合,并对所述第二加权的时间类别激活图进行阈值化以将所述光流串流分割成一个或多个特定于类别的时间建议的第二集合。


9.如权利要求7-8中任一项所述的计算机实现的方法,其中生成所述一个或多个特定于类别的时间建议包括对所述第一加权的时间类别激活图和所述第二加权的时间类别激活图中的一个或多个进行线性内插。


10.如权利要求7-9中任一项所述的计算机实现的方法,至少部分地基于所述第一加权的时间类别激活图和所述第二加权的时间类别激活图确定所述目标动作在所述视频中的所述时间位置包括:
选择来自视频或所述光流串流中的任一个的特定的时间间隔的第一特定于类别的时间建议;以及
确定是否存在来自所述视频或所述光流串流中的另一个的对应的时间间隔的第二特定于类别的时间建议。


11.如权利要求10所述的计算机实现的方法,其中当不存在来自所述视频或所述光流串流中的另一个的对应的时间间隔的第二特定于类别的时间建议时,至少部分地基于所述第一加权的时间类别激活图和所述第二加权的时间类别激活图确定所述目标动作在所述视频中的所述时间位置包括,至少部分地基于所述第一特定于类别的时间建议来检测所述特定的时间间隔处的所述目标动作。


12.如权利要求10所述的计算机实现的方法,其中当存在来自所述视频或所述光流串流中的另一个的对应的时间间隔的第二特定于类别的时间建议时,至少部分地基于所述第一加权的时间类别激活图和所述第二加权的时间类别激活图确定所述目标动作在所述视频中的所述时间位置包括,比较所述第一特定于类别的时间建议和所述第二特定于类别的时间建议。


13.如权利要求12所述的计算机实现的方法,其中通过所述稀疏时间池化网络比较所述第一特定于类别的时间建议和所述第二特定于类别的时间建议包括,至少部分地基于相应的特定于类别的时间建议内的所有一维连接的分量的加权平均时间类别激活图,确定所述第一特定于类别的时间建议和所述第二特定于类别的时间建议中的每一个的所述目标动作的相应的得分。


14.如权利要求13所述的计算机实现的方法,其中至少部分地基于相应的得分确定所述目标动作在所述视频中的所述时间位置。


15.如权利要求13-14中任一项所述的计算机实现的方法,其中至少部分地基于模态参数确定所述目标动作的相应的得分以控制所述第一加权的时间类别激活图和所述第二加权的时间类别激活图的幅度。


16.如权利要求1-15中任一项所述的计算机实现的方法,其中通过所述稀疏时间池化网络至少部分地基于所述一个或多个加权的时间类别激活图确定所述目标动作在所述视频中的所述时间位置包括,在目标类别的多个特定于类别的时间建议之间执行非极大值抑制,以移除重叠的检测。


17.如权利要求1-16中任一项所述的计算机实现的方法,还包括
至少部分地基于视频级分类得分确定所述视频的一个或多个相关的目标动作分类标签。


18.如权利要求1-17中任一项所述的计算机实现的方法,其中已经使用...

【专利技术属性】
技术研发人员:刘汀G普拉萨德PX阮B韩
申请(专利权)人:谷歌有限责任公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1