用于提供视频中的分割的系统和方法技术方案

技术编号：29463629 阅读：26 留言：0更新日期：2021-07-27 17:37

本公开涉及用于提供视频中的分割的系统和方法。提供了使用深度卷积细分和情境感知跳跃连接的针对视频数据的高保真度交互式分割。讨论了与将视频帧自动分割为按像素的保真度感兴趣对象和背景区域有关的技术。这种技术包括：将细分应用于视频帧以生成与该视频帧相对应的特征帧，以及将实现了情境感知跳跃连接的分割网络应用于包括与视频帧相对应的情境特征体量和特征帧的输入体量以生成针对视频帧的分割。

全部详细技术资料下载

【技术实现步骤摘要】
用于提供视频中的分割的系统和方法
本申请总体而言涉及图像分割(segmentation)，具体地涉及使用深度卷积细分和情境感知跳跃连接进行的针对视频数据的高保真度交互式分割。
技术介绍
在交互式视频分割中，用户输入被接收，该用户输入经由用户在图像、图像的前景对象或感兴趣对象(例如，正点击(positiveclick))和背景(例如，负点击(negativeclick))上的点击来进行指示。然后，用户输入被用于自动地渲染整个视频剪辑中感兴趣对象相对于背景的像素级别的分割。这样的交互式视频分割可以用在转描机(rotoscoping)(例如，将图像转移到另一视频序列中的过程)或其他应用中。值得注意的是，得到的语义分割数据在诸如视觉效果应用之类的各种情境中是有用的。例如，自动视频分割可以有利地代替在媒体、电影和相关行业中使用的劳动密集且昂贵的转描机技术。当前的语义分割技术包括使用手工制作的特征和距离度量并且使用卷积神经网络来将静态图像分割为例如前景和背景区域。然而，仍然存在对改进的高保真度分割的兴趣。鉴于这些和其他考虑，需要当前进行改进。这种改进可能随着对在视频中应用高保真度分割的期望越来越普遍而变得至关重要。
技术实现思路
根据本公开的一方面，提供了一种用于提供视频中的分割的系统，包括：存储器，用于存储当前视频帧；以及耦合到所述存储器的一个或多个处理器，所述一个或多个处理器用于进行以下操作：生成与所述当前视频帧相对应的特征体量，该特征体量包括所述当前视频帧和以下项中的至少一者：时间上先前的视频帧...

【技术保护点】
1.一种用于提供视频中的分割的系统，包括：/n存储器，用于存储当前视频帧；以及/n耦合到所述存储器的一个或多个处理器，所述一个或多个处理器用于进行以下操作：/n生成与所述当前视频帧相对应的特征体量，该特征体量包括所述当前视频帧和以下项中的至少一者：时间上先前的视频帧、时间上先前的分割帧、或感兴趣对象指示符帧，其中该感兴趣对象指示符帧包括关于所述当前视频帧中的感兴趣对象的一个或多个指示符；/n将所述特征体量与多个特征帧组合以生成分割网络输入体量，其中每个特征帧包括从被应用于所述当前视频帧的卷积神经网络的特征层压缩而来的特征；/n将分割网络的多个卷积层中的第一卷积层应用于所述分割网络输入体量；/n将所述特征体量与来自所述第一卷积层或所述卷积层中的第二卷积层的卷积层输出体量组合以生成卷积层输入体量；/n将所述卷积层中的第三卷积层应用于所述卷积层输入体量以生成第二卷积层输出体量；以及/n基于所述第二卷积层输出体量来生成来自所述分割网络的当前分割帧。/n

【技术特征摘要】
20200127 US 16/773,7151.一种用于提供视频中的分割的系统，包括：
存储器，用于存储当前视频帧；以及
耦合到所述存储器的一个或多个处理器，所述一个或多个处理器用于进行以下操作：
生成与所述当前视频帧相对应的特征体量，该特征体量包括所述当前视频帧和以下项中的至少一者：时间上先前的视频帧、时间上先前的分割帧、或感兴趣对象指示符帧，其中该感兴趣对象指示符帧包括关于所述当前视频帧中的感兴趣对象的一个或多个指示符；
将所述特征体量与多个特征帧组合以生成分割网络输入体量，其中每个特征帧包括从被应用于所述当前视频帧的卷积神经网络的特征层压缩而来的特征；
将分割网络的多个卷积层中的第一卷积层应用于所述分割网络输入体量；
将所述特征体量与来自所述第一卷积层或所述卷积层中的第二卷积层的卷积层输出体量组合以生成卷积层输入体量；
将所述卷积层中的第三卷积层应用于所述卷积层输入体量以生成第二卷积层输出体量；以及
基于所述第二卷积层输出体量来生成来自所述分割网络的当前分割帧。

2.根据权利要求1所述的系统，所述一个或多个处理器还用于进行以下操作：
将所述特征体量与来自所述卷积层中每个非最后卷积层的相应输出体量组合，以针对所述卷积层中的每个后续卷积层生成相应的卷积层输入体量。

3.根据权利要求1所述的系统，其中，所述一个或多个处理器用于将所述特征体量与来自所述第一卷积层或所述第二卷积层的所述卷积层输出体量组合包括：所述一个或多个处理器用于串接所述特征体量和所述卷积层输出体量，其中所述特征体量和所述卷积层输出体量包括相同的分辨率。

4.根据权利要求1所述的系统，其中，所述特征体量包括所述当前视频帧、所述时间上先前的视频帧、所述时间上先前的分割帧、和所述感兴趣对象指示符帧。

5.根据权利要求4所述的系统，其中，所述感兴趣对象指示符帧中的所述一个或多个指示符指示正指示符的位置，其中这些正指示符指示所述感兴趣对象，所述特征体量还包括背景指示符帧、正距离变换帧、和负距离变换帧，其中，所述背景指示符帧包括指示背景的位置的负指示符，该背景不包括所述感兴趣对象，所述正距离变换帧针对其每个像素包括指示距所述正指示符的任何位置的最小距离的值，并且所述负距离变换帧针对其每个像素包括指示距所述负指示符的任何位置的最小距离的值。

6.根据权利要求1至5中任一项所述的系统，其中，第二卷积层输入体量由所述特征体量与来自所述第一卷积层或所述第二卷积层的所述卷积层输出体量组成，并且其中不存在来自所述分割网络的任何其他卷积层的任何卷积层输出体量。

7.根据权利要求1至5中任一项所述的系统，所述一个或多个处理器还用于进行以下操作：
将所述当前视频帧调整大小为包括多个子图像的经调整大小的当前视频帧，其中每个子图像具有与对象分类卷积神经网络的尺寸相对应的尺寸；
将所述卷积神经网络应用于每个子图像；
针对每个子图像的每个像素取回多个特征值以针对每个像素生成特征值的超列，其中每个特征值来自所述卷积神经网络的层中的一个层；以及
压缩特征值的超列以确定所述多个特征帧。

8.根据权利要求7所述的系统，其中，所述一个或多个处理器用于压缩所述超列包括：所述一个或多个处理器用于将Tucker分解应用于包括所述超列的特征体量，以确定包括多个经压缩的特征帧的核心张量。

9.一种用于提供视频中的分割的系统，包括：
存储器，用于存储当前视频帧；以及
耦合到所述存储器的一个或多个处理器，所述一个或多个处理器用于进行以下操作：
将所述当前视频帧调整大小为包括多个子图像的经调整大小的当前视频帧，其中每个子图像具有与对象分类卷积神经网络的尺寸相对应的尺寸；
将所述对象分类卷积神经网络应用于每个子图像，并针对每个子图像的每个像素取回多个特征值以生成对象分类输出体量，其中每个特征值来自所述对象分类卷积神经网络的层中的一个层；
将所述对象分类输出体量调整大小到所述当前视频帧的尺寸；
将至少包括所述当前视频帧的特征体量与多个特征帧组合以生成输入体量，其中每个特征帧包括从经调整大小的对象分类输出体量压缩而来的特征；以及
将分割卷积神经网络应用于所述输入体量，以生成针对所述当前视频帧的当前分割帧。

10.根据权利要求9所述的系统，其中，所述经调整大小的当前视频帧的分辨率具有如下的宽度：该宽度包括所述对象分类卷积神经网络的输入宽度与来自上取整函数的输出的积，其中该上取整函数被应用于所述当前视频帧的宽度与所述对象分类卷积神经网络的所述输入宽度的比率。

11.根据权利要求9所述的系统，其中，所述经...

【专利技术属性】
技术研发人员：安东尼·罗德斯，马南·戈尔，
申请(专利权)人：英特尔公司，
类型：发明
国别省市：美国;US

全部详细技术资料下载我是这个专利的主人