用卷积神经网络处理内容的系统和方法技术方案

技术编号：18737552 阅读：25 留言：0更新日期：2018-08-22 05:51

系统、方法和非暂时性计算机可读介质可以以第一分辨率获得一组视频帧。使用卷积神经网络处理所述一组视频帧以输出一个或多个信号，卷积神经网络包括(i)一组二维卷积层和(ii)一组三维卷积层，其中，该处理使得该组视频帧被降低到第二分辨率。使用卷积神经网络的一组三维解卷积层处理该一个或多个信号。从卷积神经网络获得对应于该组视频帧的一个或多个输出。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】用卷积神经网络处理内容的系统和方法
本技术涉及媒体处理领域。更具体地说，本技术涉及使用卷积神经网络处理视频内容的技术。
技术介绍
现在人们经常利用计算设备或系统用于各种各样的目的。例如，用户可以使用他们的计算设备(或系统)来相互交互、创建内容、共享信息和访问信息。在一些情况下，计算设备的用户可以利用计算设备的相机或其他图像传感器来捕捉或记录诸如视频内容的媒体内容。
技术实现思路
本公开的各种实施方式可以包括被配置为以第一分辨率获得一组视频帧的系统、方法和非暂时性计算机可读介质。使用卷积神经网络处理所述一组视频帧以输出一个或多个信号，所述卷积神经网络包括(i)一组二维卷积层和(ii)一组三维卷积层，其中所述处理使得所述一组视频帧被降低到第二分辨率；使用卷积神经网络的一组三维解卷积层处理一个或多个信号。从卷积神经网络获得对应于所述一组视频帧的一个或多个输出。在一个实施方式中，所述系统、方法和非暂时性计算机可读介质被配置为获得该组视频帧中的一个或多个体素的一个或多个相应特征描述符，其中，每个特征描述符指示识别的场景、对象或动作。在一个实施方式中，系统、方法和非暂时性计算机可读介质被配置为获得所述一组视频帧中的一个或多个体素的相应光流，其中，所述体素的光流至少描述所述体素的预测方向和大小。在一个实施方式中，系统、方法和非暂时性计算机可读介质被配置为获得所述一组视频帧中的一个或多个体素的相应深度测量值。在一个实施方式中，系统，方法和非暂时性计算机可读介质被配置为将由所述一组三维卷积层产生的信号的至少一部分输入到所述一组三维解卷积层，所述三维解卷积层被训练为对所述信号的一...

【技术保护点】
1.一种计算机实现的方法，包括：由计算系统以第一分辨率获得一组视频帧；由所述计算系统使用卷积神经网络处理所述一组视频帧以输出一个或多个信号，所述卷积神经网络包括(i)一组二维卷积层和(ii)一组三维卷积层，其中，所述处理使得所述一组视频帧被降低到第二分辨率；由所述计算系统使用所述卷积神经网络的一组三维解卷积层处理所述一个或多个信号；以及由所述计算系统从所述卷积神经网络获得对应于所述一组视频帧的一个或多个输出。

【技术特征摘要】
【国外来华专利技术】2015.11.05 US 62/251,414;2015.12.29 US 14/983,4771.一种计算机实现的方法，包括：由计算系统以第一分辨率获得一组视频帧；由所述计算系统使用卷积神经网络处理所述一组视频帧以输出一个或多个信号，所述卷积神经网络包括(i)一组二维卷积层和(ii)一组三维卷积层，其中，所述处理使得所述一组视频帧被降低到第二分辨率；由所述计算系统使用所述卷积神经网络的一组三维解卷积层处理所述一个或多个信号；以及由所述计算系统从所述卷积神经网络获得对应于所述一组视频帧的一个或多个输出。2.根据权利要求1所述的计算机实现的方法，其中，所述获得对应于所述一组视频帧的一个或多个输出进一步包括：由所述计算系统获得所述一组视频帧中的一个或多个体素的一个或多个相应特征描述符，其中，每个所述特征描述符指示识别的场景、对象或动作。3.根据权利要求1所述的计算机实现的方法，其中，所述获得对应于所述一组视频帧的一个或多个输出进一步包括：由所述计算系统获得所述一组视频帧中的一个或多个体素的相应光流，其中，所述体素的所述光流至少描述所述体素的预测方向和大小。4.根据权利要求1所述的计算机实现的方法，其中，所述获得对应于所述一组视频帧的一个或多个输出进一步包括：由所述计算系统获得所述一组视频帧中的一个或多个体素的相应深度测量值。5.根据权利要求1所述的计算机实现的方法，其中，所述使用所述卷积神经网络的所述一组三维解卷积层处理所述一个或多个信号进一步包括：由所述计算系统将由所述一组三维卷积层产生的信号的至少一部分输入到所述一组三维解卷积层，所述三维解卷积层被训练为将至少一个三维解卷积操作应用于所述信号的一部分。6.根据权利要求5所述的计算机实现的方法，其中，所述至少一个三维解卷积操作至少基于一个或多个三维滤波器以解卷积所述信号的一部分，并且其中，所述三维解卷积操作使得视频内容的表示在信号大小上增加。7.根据权利要求1所述的计算机实现的方法，所述使用所述卷积神经网络处理所述一组视频帧以输出一个或多个信号，所述卷积神经网络包括(i)一组二维卷积层和(ii)一组三维卷积层进一步包括：由所述计算系统将所述一组视频帧的表示输入到所述一组二维卷积层以输出一组第一信号，所述二维卷积层被训练为将至少一个二维卷积操作应用于所述视频内容的表示；以及由所述计算系统将所述一组第一信号的至少一部分输入到所述一组三维卷积层以输出一组第二信号，所述三维卷积层被训练为将至少一个三维卷积操作应用于所述一组第一信号。8.根据权利要求7所述的计算机实现的方法，其中，所述至少一个二维卷积操作至少基于一个或多个二维滤波器来卷积所述视频内容的所述表示，并且其中，所述二维卷积操作使得所述视频内容的表示在信号大小上减小。9.根据权利要求7所述的计算机实现的方法，其中，所述至少一个三维卷积操作至少基于一个或多个三维滤波器来卷积所述一组第一信号，并且其中，所述三维卷积操作使得所述视频内容的表示在信号大小上减小。10.根据权利要求1所述的计算机实现的方法，其中，所述一组视频帧包括多于两个的视频帧。11.一种系统，包括：至少一个处理器；以及存储指令的存储器，所述指令在由所述至少一个处理器执行时使所述系统执行：以第一分辨率获得一组视频帧；使用卷积神经网络处理所述一组视频帧以输出一个或多个信号，所述卷积神经网络包括(i)一组二维卷积层和(ii)一组三维卷积层，其中所述处理使得所述一组视频帧被降低到第二分辨率；使用所述卷积神经网络的一组三维解卷积层处理所述一个或多个信号；以及从所述卷积神经网络获得对应于所述一组视频帧的一个或多个输出。12.根据权利要求11所述的系统，其中，所述获得对应于所述一组视频帧的所述一个或多个输出进一步使所述系统执行：获得所述一组视频帧中的一个或多个体素的一个或多个相应特征描述符，其中，每个所述特征描述符指示识别的场景、对象或动作。13.根据权利要求11所述的系统，其中，所述获得对应于所述一组视频帧的所述一个或多个输出进一步使所述系统执行：获得所述一组视频帧中的一个或多个体素的相应光流，其中，所述体素的光流至少描述所述体素的预测方向和大小。14.根据权利要求11所述的系统，其中，所述获得对应于所述一组视频帧的所述一个或多个输出进一步使所述系统执行：获得所述一组视频帧中的一个或多个体素的相应光流，其中，所述体素的光流至少描述所述体素的预测方向和大小。15.根据权利要求11所述的系统，其中，所述使用所述卷积神经网络的一组三维解卷积层处理所述一个或多个信号进一步使得所述系统执行：由计算系统将由所述一组三维卷积层产生的信号的至少一部分输入到所述一组三维解卷积层，所述三维解卷积层被训练为将至少一个三维解卷积操作应用于所述信号的一部分。16.一种包括指令的非暂时性计算机可读存储介质，所述指令在由计算系统的至少一个处理器执行时使所述计算系统执行：以第一分辨率获得一组视频帧；使用卷积神经网络处理所述一组视频帧以输出一个或多个信号，所述卷积神经网络包括(i)一组二维卷积层和(ii)一组三维卷积层，其中，所述处理使得所述一组视频帧被降低到第二分辨率；使用所述卷积神经网络的一组三维解卷积层处理所述一个或多个信号；以及从所述卷积神经网络获得对应于所述一组视频帧的一个或多个输出。17.根据权利要求16所述的非暂时性计算机可读存储介质，其中，所述获得对应于所述一组视频帧的所述一个或多个输出进一步使所述计算系统执行：获得所述一组视频帧中的一个或多个体素的一个或多个相应特征描述符，其中，每个所述特征描述符指示识别的场景、对象或动作。18.根据权利要求16所述的非暂时性计算机可读存储介质，其中，所述获得对应于所述一组视频帧的所述一个或多个输出进一步使所述计算系统执行：获得所述一组视频帧中的一个或多个体素的相应光流，其中，所述体素的光流至少描述所述体素的预测方向和大小。19.根据权利要求16所述的非暂时性计算机可读存储介质，其中，所述获得对应于所述一组视频帧的所述一个或多个输出进一步使所述计算系统执行：获得所述一组视频帧中的一个或多个体素的相...

【专利技术属性】
技术研发人员：巴拉马诺哈尔·帕卢里，杜·勒·洪·特兰，卢博米尔·布德夫，罗伯特·D·弗格斯，
申请(专利权)人：脸谱公司，
类型：发明
国别省市：美国,US

全部详细技术资料下载我是这个专利的主人