【技术实现步骤摘要】
空-时特征表示的提取
技术介绍
多媒体内容、特别是图像和视频被频繁应用,例如在电子设备之间被处理、传输和存储等等。这激励了在多媒体处理任务中对更高级处理技术的开发和使用。基于图像或视频的多媒体处理任务包括对象识别、动作识别、内容分类、深度估计等等。这些任务的基础通常是对图像或视频帧的特征表示的学习。特征表示指的是从图像或视频的帧中提取的、用于表征该视频的特征信息。基于所学习的特征表示,可以完成对图像或视频所期望的处理目标。目前,已经发现神经网络(也被称为学习网络)在学习图像领域中的视觉特征表示时具有非常好的效果。有时还期望提取视频或者一组连续拍摄的图像的特征表示。在一些常规方案中,用于图像的神经网络设计可以被直接用于提取每个图像或视频的每个帧的特征表示。然而,不同于静态图像,一组连续图像或者视频的多个帧在时间上的动态变化也应被考虑在特征表示中。因此,在另外一些方案中,为了提取视频或一组图像在空间维度和时间维度中的特征信息,神经网络可以被设计得更复杂。这就要求更多的处理资源、存储资源用于神经网络的训练、存储和使用。
技术实现思路
根据本公开的实现,提出了一种提取空-时特征表示 ...
【技术保护点】
1.一种由计算机实现的方法,包括:在学习网络的第一层处接收输入,所述输入包括多个图像;利用所述第一层的第一单元,在空间维度中从所述输入提取所述多个图像的第一特征,所述第一特征表征所述多个图像的空间呈现;基于所述第一单元与所述第一层中的第二单元之间的连接的类型,利用所述第二单元,在时间维度中从所述第一特征和所述输入中的至少一个提取所述多个图像的第二特征,第二特征至少表征跨所述多个图像的时间变化;以及至少部分地基于所述第二特征来生成所述多个图像的空‑时特征表示。
【技术特征摘要】
1.一种由计算机实现的方法,包括:在学习网络的第一层处接收输入,所述输入包括多个图像;利用所述第一层的第一单元,在空间维度中从所述输入提取所述多个图像的第一特征,所述第一特征表征所述多个图像的空间呈现;基于所述第一单元与所述第一层中的第二单元之间的连接的类型,利用所述第二单元,在时间维度中从所述第一特征和所述输入中的至少一个提取所述多个图像的第二特征,第二特征至少表征跨所述多个图像的时间变化;以及至少部分地基于所述第二特征来生成所述多个图像的空-时特征表示。2.根据权利要求1所述的方法,其中所述多个图像是由所述学习网络的第二层处理过的图像。3.根据权利要求1所述的方法,其中所述第一单元与所述第二单元之间的连接的类型选自包括以下的组:第一串联连接,在所述第一串联连接中所述第二单元至少从所述第一特征提取所述第二特征;第二串联连接,在所述第二串联连接中所述第二单元至少从所述输入提取所述第二特征;以及并联连接,在所述并联连接中所述第二单元从所述输入提取所述第二特征。4.根据权利要求1所述的方法,其中生成所述空-时特征表示包括:响应于所述连接的类型是第二串联连接或并联连接,通过组合所述第一特征和所述第二特征来生成所述空-时特征表示。5.根据权利要求1所述的方法,其中生成所述空-时特征表示还包括:还基于所述输入来生成所述空-时特征表示。6.根据权利要求1所述的方法,其中所述输入具有第一数目的维度,并且从所述输入提取所述第一特征包括:将所述输入的维度从所述第一数目降低到第二数目;以及利用所述第一单元从具有所述第二数目的维度的所述输入提取所述第一特征。7.根据权利要求6所述的方法,其中所述第二特征具有第三数目的维度,并且生成所述空-时特征表示还包括:将所述第二特征的维度从所述第三数目增加到第四数目;以及至少部分地基于具有所述第四数目的维度的所述第二特征来生成所述空-时特征表示。8.根据权利要求1所述的方法,其中生成所述空-时特征表示还包括:至少部分地基于所述第二特征,生成所述第一层的第一中间特征表示;以及利用所述学习网络的第三层的第三单元,在空间维度中从所述第一中间特征提取所述多个图像的第三特征,所述第三特征表征所述多个图像的空间呈现;基于所述第三单元与所述第三层中的第四单元之间的连接的类型,利用所述第四单元,在时间维度中从所述第三特征或所述第一中间特征表示提取所述多个图像的第四特征,第四特征至少表征跨所述多个图像的时间变化,所述第三单元与所述第四单元之间的连接的类型不同于所述第一单元与所述第二单元之间的连接的类型;以及至少部分地基于所述第四特征来生成所述空-时特征表示。9.根据权利要求1所述的方法,其中所述第一单元和所述第二单元中的至少一个单元包括卷积滤波器。10.一种设备,包括:处理单元;以及存储器,耦合至所述处理单元并且包含存储于其上的指令,所述指令在由所述处理单元执行时使所述设备执行动作,所述动作包括:在学习网络的第一层处接收输入,所述输入包括多个图像;利用所述第一层的第一单元,在空间维度中从所述输入提取所述多个图像的第一特征,所述第一特征表征所述多个图像的空间呈现;基于所述第一单元与所述第一层中的第二单元之间的连接的类型,利用所述第二单元,在时间维度中从所述第一特征和所述输入中的至少一个提取所述多个图像的第二特征,第二特征至少表征跨所述多个图像的时间变化;以及至少部分...
【专利技术属性】
技术研发人员:姚霆,梅涛,
申请(专利权)人:微软技术许可有限责任公司,
类型:发明
国别省市:美国,US
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。