当前位置: 首页 > 专利查询>脸谱公司专利>正文

用卷积神经网络处理内容的系统和方法技术方案

技术编号:18737552 阅读:25 留言:0更新日期:2018-08-22 05:51
系统、方法和非暂时性计算机可读介质可以以第一分辨率获得一组视频帧。使用卷积神经网络处理所述一组视频帧以输出一个或多个信号,卷积神经网络包括(i)一组二维卷积层和(ii)一组三维卷积层,其中,该处理使得该组视频帧被降低到第二分辨率。使用卷积神经网络的一组三维解卷积层处理该一个或多个信号。从卷积神经网络获得对应于该组视频帧的一个或多个输出。

【技术实现步骤摘要】
【国外来华专利技术】用卷积神经网络处理内容的系统和方法
本技术涉及媒体处理领域。更具体地说,本技术涉及使用卷积神经网络处理视频内容的技术。
技术介绍
现在人们经常利用计算设备或系统用于各种各样的目的。例如,用户可以使用他们的计算设备(或系统)来相互交互、创建内容、共享信息和访问信息。在一些情况下,计算设备的用户可以利用计算设备的相机或其他图像传感器来捕捉或记录诸如视频内容的媒体内容。
技术实现思路
本公开的各种实施方式可以包括被配置为以第一分辨率获得一组视频帧的系统、方法和非暂时性计算机可读介质。使用卷积神经网络处理所述一组视频帧以输出一个或多个信号,所述卷积神经网络包括(i)一组二维卷积层和(ii)一组三维卷积层,其中所述处理使得所述一组视频帧被降低到第二分辨率;使用卷积神经网络的一组三维解卷积层处理一个或多个信号。从卷积神经网络获得对应于所述一组视频帧的一个或多个输出。在一个实施方式中,所述系统、方法和非暂时性计算机可读介质被配置为获得该组视频帧中的一个或多个体素的一个或多个相应特征描述符,其中,每个特征描述符指示识别的场景、对象或动作。在一个实施方式中,系统、方法和非暂时性计算机可读介质被配置为获得所述一组视频帧中的一个或多个体素的相应光流,其中,所述体素的光流至少描述所述体素的预测方向和大小。在一个实施方式中,系统、方法和非暂时性计算机可读介质被配置为获得所述一组视频帧中的一个或多个体素的相应深度测量值。在一个实施方式中,系统,方法和非暂时性计算机可读介质被配置为将由所述一组三维卷积层产生的信号的至少一部分输入到所述一组三维解卷积层,所述三维解卷积层被训练为对所述信号的一部分施加至少一个三维解卷积操作。在一个实施方式中,所述至少一个三维解卷积操作至少基于一个或多个三维滤波器以解卷积所述信号的一部分,并且其中,所述三维解卷积操作使得视频内容的表示在信号大小上增加。在一个实施方式中,所述系统、方法和非暂时性计算机可读介质被配置为将所述一组视频帧的表示输入到所述一组二维卷积层以输出一组第一信号,所述二维卷积层被训练为将至少一个二维卷积操作应用于视频内容的表示,以及将所述一组第一信号的至少一部分输入到所述一组三维卷积层以输出一组第二信号,所述三维卷积层被训练为将至少一个三维卷积操作应用于所述一组第一信号。在一个实施方式中,至少一个二维卷积操作至少基于一个或多个二维滤波器来卷积视频内容的表示,并且其中,二维卷积操作使得视频内容的表示在信号大小上减小。在一个实施方式中,所述至少一个三维卷积操作至少基于一个或多个三维滤波器来卷积所述一组第一信号,并且其中,所述三维卷积操作使得所述视频内容的表示在信号大小上减小。在一个实施方式中,一组视频帧包括多于两个视频帧。应该理解的是,根据附图和以下详细描述,所公开的技术的许多其他特征、应用、实施方式和/或变型将是显而易见的。在不脱离所公开的技术的原理的情况下,可以采用在此描述的结构、系统、非临时性计算机可读介质和方法的附加和/或替代实现。根据本专利技术的实施方式特别在涉及方法、存储介质、系统和计算机程序产品的所附权利要求中公开,其中在一个权利要求类别中提到的任何特征,例如方法,可以在另一个权利要求类别中被主张,例如,还有系统。所附权利要求中的依存或引用关系仅因形式原因而选择的。然而,还可以要求保护因特意引用任何先前权利要求(特别是多项引用关系)获得的任何主题,以便权利要求及其特征的任何组合被公开并且可以被主张,而不管在所附权利要求中选择的依存关系。可以要求保护的主题不仅包括如所附权利要求中阐述的特征的组合,而且还包括权利要求中的特征的任何其他组合,其中权利要求中提及的每个特征可以与权利要求中的任何其他特征或其他特征的组合结合。此外,本文描述或描绘的任何实施方式和特征可以在单独的权利要求中被保护,和/或在与在此描述或描绘的任何实施方式或特征、或者具有所附权利要求的任何特征的任何组合中被保护。附图说明图1示出根据本公开的实施方式的包括被配置为使用一个或多个卷积神经网络来分析视频内容的示例内容分析器模块的示例系统;图2示出根据本公开的实施方式的被配置为分析视频内容的示例神经网络模块;图3示出根据本公开的实施方式的卷积神经网络的示例图;图4示出根据本公开的实施方式的卷积神经网络的另一示例图;图5示出根据本公开的实施方式的用于使用卷积神经网络处理一组视频帧的示例方法;图6示出根据本公开的实施方式的用于使用卷积神经网络处理一组视频帧的另一示例方法;图7示出根据本公开的实施方式的包括可在各种情况下使用的示例性社交网络系统的示例系统的网络图;图8示出根据本公开的实施方式的可以在各种情况下使用的计算机系统或计算设备的示例。附图仅出于说明的目的描绘了所公开的技术的各种实施方式,其中附图使用相同的附图标记来标识相同的元件。本领域技术人员根据以下讨论将容易认识到,可以采用附图中示出的结构和方法的替代实施方式而不背离本文描述的公开技术的原理。具体实施方式用卷积神经网络处理内容人们将计算设备或系统用于各种各样的目的。计算设备可以提供不同类型的功能。用户可以利用他们的计算设备来产生信息、访问信息和共享信息。在一些情况下,计算设备可以包括或对应于能够捕捉或记录媒体内容(诸如视频)的相机。视频通常可以包含一组可以捕获或表示各种场景、项目、主题或其他对象的帧。连续拍摄或以其他方式拍摄的一组帧也可以随时间捕捉各种移动、动作或其他外观变化。为了诸如语义分段(例如特征识别,诸如识别场景、对象、移动等)、光流和深度识别的各种目的而处理视频内容的常规方法可能是低效的和/或不可靠的。在一个示例中,传统的卷积神经网络可能不能可靠地识别一组视频帧中的特征。此外,视频内容的大小或分辨率通常在由卷积神经网络中的每个不同层处理时减小,这导致这种不可靠性。常规方法也可能是受限的,因为可能需要不同配置的卷积神经网络,以便卷积神经网络能够准确地执行特定任务,诸如特征识别、光流、深度识别等,以命名一些实例。因此,这样的传统方法可以提供对视频内容的次优处理,并且可能不能有效地解决计算机技术中出现的这些和其他问题。基于计算机技术的改进方法克服了与在计算机
具体出现的传统方法相关的前述和其他缺点。在各种实施方式中,具有一组二维卷积层、一组三维卷积层和一组三维解卷积层的卷积神经网络可被训练并用于执行各种类型的任务,包括例如特征识别、光流和/或深度识别。在一些实施方式中,可以训练卷积神经网络以针对一组视频帧中的任何体素预测对应的一组特征描述符、光流(例如,体素的预测方向和大小)和/或深度识别。在这样的实施方式中,该组视频帧可以由二维卷积层处理以输出一组第一信号。该组第一信号可以由三维卷积层处理以输出一组第二信号。该组第二信号可以由被训练成放大视频内容的尺寸或分辨率的三维解卷积层处理,该尺寸或分辨率可能由于被二维和三维卷积层处理而降低。放大的信号可以被输入到卷积神经网络的softmax层以产生一个或多个输出。输出可以根据卷积神经网络的训练和softmax层所使用的损失函数而变化。例如,输出可以是一个或多个指示与视频帧组中的体素相对应的识别的场景、对象或运动的特征描述符,视频帧组中的体素的相应光流,或为视频帧组中的体素识别的相应深度。图1示出根据本公开的实本文档来自技高网
...

【技术保护点】
1.一种计算机实现的方法,包括:由计算系统以第一分辨率获得一组视频帧;由所述计算系统使用卷积神经网络处理所述一组视频帧以输出一个或多个信号,所述卷积神经网络包括(i)一组二维卷积层和(ii)一组三维卷积层,其中,所述处理使得所述一组视频帧被降低到第二分辨率;由所述计算系统使用所述卷积神经网络的一组三维解卷积层处理所述一个或多个信号;以及由所述计算系统从所述卷积神经网络获得对应于所述一组视频帧的一个或多个输出。

【技术特征摘要】
【国外来华专利技术】2015.11.05 US 62/251,414;2015.12.29 US 14/983,4771.一种计算机实现的方法,包括:由计算系统以第一分辨率获得一组视频帧;由所述计算系统使用卷积神经网络处理所述一组视频帧以输出一个或多个信号,所述卷积神经网络包括(i)一组二维卷积层和(ii)一组三维卷积层,其中,所述处理使得所述一组视频帧被降低到第二分辨率;由所述计算系统使用所述卷积神经网络的一组三维解卷积层处理所述一个或多个信号;以及由所述计算系统从所述卷积神经网络获得对应于所述一组视频帧的一个或多个输出。2.根据权利要求1所述的计算机实现的方法,其中,所述获得对应于所述一组视频帧的一个或多个输出进一步包括:由所述计算系统获得所述一组视频帧中的一个或多个体素的一个或多个相应特征描述符,其中,每个所述特征描述符指示识别的场景、对象或动作。3.根据权利要求1所述的计算机实现的方法,其中,所述获得对应于所述一组视频帧的一个或多个输出进一步包括:由所述计算系统获得所述一组视频帧中的一个或多个体素的相应光流,其中,所述体素的所述光流至少描述所述体素的预测方向和大小。4.根据权利要求1所述的计算机实现的方法,其中,所述获得对应于所述一组视频帧的一个或多个输出进一步包括:由所述计算系统获得所述一组视频帧中的一个或多个体素的相应深度测量值。5.根据权利要求1所述的计算机实现的方法,其中,所述使用所述卷积神经网络的所述一组三维解卷积层处理所述一个或多个信号进一步包括:由所述计算系统将由所述一组三维卷积层产生的信号的至少一部分输入到所述一组三维解卷积层,所述三维解卷积层被训练为将至少一个三维解卷积操作应用于所述信号的一部分。6.根据权利要求5所述的计算机实现的方法,其中,所述至少一个三维解卷积操作至少基于一个或多个三维滤波器以解卷积所述信号的一部分,并且其中,所述三维解卷积操作使得视频内容的表示在信号大小上增加。7.根据权利要求1所述的计算机实现的方法,所述使用所述卷积神经网络处理所述一组视频帧以输出一个或多个信号,所述卷积神经网络包括(i)一组二维卷积层和(ii)一组三维卷积层进一步包括:由所述计算系统将所述一组视频帧的表示输入到所述一组二维卷积层以输出一组第一信号,所述二维卷积层被训练为将至少一个二维卷积操作应用于所述视频内容的表示;以及由所述计算系统将所述一组第一信号的至少一部分输入到所述一组三维卷积层以输出一组第二信号,所述三维卷积层被训练为将至少一个三维卷积操作应用于所述一组第一信号。8.根据权利要求7所述的计算机实现的方法,其中,所述至少一个二维卷积操作至少基于一个或多个二维滤波器来卷积所述视频内容的所述表示,并且其中,所述二维卷积操作使得所述视频内容的表示在信号大小上减小。9.根据权利要求7所述的计算机实现的方法,其中,所述至少一个三维卷积操作至少基于一个或多个三维滤波器来卷积所述一组第一信号,并且其中,所述三维卷积操作使得所述视频内容的表示在信号大小上减小。10.根据权利要求1所述的计算机实现的方法,其中,所述一组视频帧包括多于两个的视频帧。11.一种系统,包括:至少一个处理器;以及存储指令的存储器,所述指令在由所述至少一个处理器执行时使所述系统执行:以第一分辨率获得一组视频帧;使用卷积神经网络处理所述一组视频帧以输出一个或多个信号,所述卷积神经网络包括(i)一组二维卷积层和(ii)一组三维卷积层,其中所述处理使得所述一组视频帧被降低到第二分辨率;使用所述卷积神经网络的一组三维解卷积层处理所述一个或多个信号;以及从所述卷积神经网络获得对应于所述一组视频帧的一个或多个输出。12.根据权利要求11所述的系统,其中,所述获得对应于所述一组视频帧的所述一个或多个输出进一步使所述系统执行:获得所述一组视频帧中的一个或多个体素的一个或多个相应特征描述符,其中,每个所述特征描述符指示识别的场景、对象或动作。13.根据权利要求11所述的系统,其中,所述获得对应于所述一组视频帧的所述一个或多个输出进一步使所述系统执行:获得所述一组视频帧中的一个或多个体素的相应光流,其中,所述体素的光流至少描述所述体素的预测方向和大小。14.根据权利要求11所述的系统,其中,所述获得对应于所述一组视频帧的所述一个或多个输出进一步使所述系统执行:获得所述一组视频帧中的一个或多个体素的相应光流,其中,所述体素的光流至少描述所述体素的预测方向和大小。15.根据权利要求11所述的系统,其中,所述使用所述卷积神经网络的一组三维解卷积层处理所述一个或多个信号进一步使得所述系统执行:由计算系统将由所述一组三维卷积层产生的信号的至少一部分输入到所述一组三维解卷积层,所述三维解卷积层被训练为将至少一个三维解卷积操作应用于所述信号的一部分。16.一种包括指令的非暂时性计算机可读存储介质,所述指令在由计算系统的至少一个处理器执行时使所述计算系统执行:以第一分辨率获得一组视频帧;使用卷积神经网络处理所述一组视频帧以输出一个或多个信号,所述卷积神经网络包括(i)一组二维卷积层和(ii)一组三维卷积层,其中,所述处理使得所述一组视频帧被降低到第二分辨率;使用所述卷积神经网络的一组三维解卷积层处理所述一个或多个信号;以及从所述卷积神经网络获得对应于所述一组视频帧的一个或多个输出。17.根据权利要求16所述的非暂时性计算机可读存储介质,其中,所述获得对应于所述一组视频帧的所述一个或多个输出进一步使所述计算系统执行:获得所述一组视频帧中的一个或多个体素的一个或多个相应特征描述符,其中,每个所述特征描述符指示识别的场景、对象或动作。18.根据权利要求16所述的非暂时性计算机可读存储介质,其中,所述获得对应于所述一组视频帧的所述一个或多个输出进一步使所述计算系统执行:获得所述一组视频帧中的一个或多个体素的相应光流,其中,所述体素的光流至少描述所述体素的预测方向和大小。19.根据权利要求16所述的非暂时性计算机可读存储介质,其中,所述获得对应于所述一组视频帧的所述一个或多个输出进一步使所述计算系统执行:获得所述一组视频帧中的一个或多个体素的相...

【专利技术属性】
技术研发人员:巴拉马诺哈尔·帕卢里杜·勒·洪·特兰卢博米尔·布德夫罗伯特·D·弗格斯
申请(专利权)人:脸谱公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1